豆瓣读书榜单2021 豆瓣读书( 三 )


部分数据截图:
在统计了10本书的推荐书籍的标签数据后,得出以下的数据,部分截图如下:
在分析样本之前,对豆瓣【喜欢这本书的用户也喜欢】这个模块的推荐策略,做出以下假设:
因为图书相比影视类型的特殊性,读书频道的用户更愿意从领域专家那获得图书的建议,用户需要的是与自己相似的专家的推荐,因此,
按照这个思路,假设当前豆瓣【喜欢这本书的用户也喜欢】模块的推荐策略为:
下面对假设做出分析
探索数据集并做描述性分析
说明:以下截图皆为整体数据的部分截图,不代表整体数据,整体数据附件在最末尾
共计86本被推荐书籍,平均得分8.5分
根据数据结果,书籍的平均得分为8.5分,豆瓣书籍的总分为10分,8.5分相对来说已经是非常高的分数了 。但由于此次样本较少,无法准确定义8.5分是否为高分,只能主观上判定为高分 。
10本书籍的被推荐书籍总数为86本,其中,有27本被推荐书籍为同一个作者,占比31.40% 。部分截图如下:
由以上数据分析可知,被推荐书籍与作者可能存在一定相关性 。
86本被推荐书籍中,只有13本被推荐书籍与样本书籍为同系列,占比15.12%部分截图如下:
由数据可知,同系列与被推荐的书籍相关性较低 。
样本中,《人类简史》这本书属于【历史】类型,但被推荐的5本书中,没有一本与它的类型一致 。同样,《认识商业》这本书,属于商业类书籍,但被推荐的10本书籍中,有8本与它的类型不一致 。
《创业维艰》这本书属于经管类型,但被推荐的6本书中,有5本书与它的类型不一致 。
由以上可知,被推荐书籍与书籍的类型关系不大
86本被推荐书籍中,只有3本书不属于同一个标签,也即被推荐书籍与当前书籍同标签的占比为96.51% 。
由此可知,被推荐的书籍与书籍标签有强相关性 。
进一步观察,发现每一本书下都有至少几十种的标签,书籍详情页只展示7-8个热门标签,越多人标记的展示越靠前,因此可知,标签被标签的次数为被推荐的权重之一 。
但标签的命名,是否存在人为管理暂时不得而知,本文不做探索 。
86本被推荐的书籍中,有56本书籍与当前书籍同一个豆列,占比65.12% 。
由此可知,豆列与被推荐书籍有强相关性 。
另外,根据观察,被推荐的豆列的在收藏和推荐的数据上相比其他含有该书籍的收藏数和推荐数在数量上差距很大,因此可知热度越高的豆列被推荐的可能性越大 。
经过测试,当我登录或不登录,或者用其他人的账号登录,看到的《为何家会伤人》被推荐的书籍都一致,由此可知,推荐结果与用户个性化行为无关,推荐模块非个性化推荐 。
根据以上的描述性分析,得出以下结论:
说明:由于本次样本数量小,以上结论皆为单变量探索,与实际可能存在一些出入,善待更多数据进一步验证 。
根据以上的分析结论,得出以下几个问题:
根据数据及查阅到的资料发现,豆瓣读书的推荐算法使用的是CF中,基于物品的特征相似性给予推荐 。即通过一些特征联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品,这个特征方式即标签、豆列,推荐的结果是基于相同的热门标签和豆列的集合 。
这样的结果就是造成热门集群效应,让推荐位容易长期被几本热门的著作占据 。长此以往,就会造成两个问题:
有的书籍与这本热门书其实关系不大 。举例来说,在《增长黑客》这本书中,看到被推荐的书籍中就有《启示录》,严格来说,《增长黑客》这本书其实算偏运营的,而《启示录》算是产品类或经管类的书籍,与《增长黑客》的类型差异很大 。
再比如,我在《认识商业》这本书下,看到的被推荐书籍如下:
这些被推荐的书籍与《认识商业》的类型相较,类型都不相同,而作为一个想学习商业知识的用户而言,其实对他们更有价值的,是类似《认识商业》内容的高分好书,因此这个推荐结果其实不理想 。
武志红的书籍和吴军的书籍,被推荐的书籍几乎全部都是他们俩自己的书
图中被标记的都是与当前书籍同作者的书籍,出现频率太高了,其他作者的书反而少 。
根据观察,推荐结果中包含了实际为同一本书的不同版本,但豆瓣实际目前已经将书籍的书评的长评和短评数据汇总了,即同一本书的不同版本下的短评和长评是一样的 。因此其实没必要推荐不同版本 。

秒懂生活扩展阅读