淘宝搜这篇论文主要讲述,去年双11期间,淘宝搜索在有限计算资源情况下,如何拿到更好的排序结果、保证用户的搜索体验、以及点击、成交量和成交额等目标的完成 。
实际的结果是,去年双11当天,淘宝搜索引擎的负载在最高峰也没有超过70%,CPU的使用率降低了约45%,搜索的平均延迟下降了约30%,同时带来的GMV提升了近1% 。
以下是这篇论文的详细介绍 。
《多层级联学习在大型电商排序系统的应用(Cascade Ranking for Operational E-commerce Search)》
作者:刘士琛,肖非,欧文武,司罗
该论文设计并实现了一种级联式电商搜索方式:它的主要思想是将一次排序分成递进的多个阶段,各阶段使用逐渐复杂的特征去得到逐渐准确的结果 。在靠前阶段使用简单特征过滤显然不合要求的结果,在靠后阶段使用复杂特征辨别难以区分的结果 。除此以外,算法结合电商场景的特殊性,严格限制了引擎的响应时间以及返回商品的数量,以保证用户的搜索体验 。
离线实验和在线实验均验证了算法的正确性以及有效性,对比传统的方法能提升准确率的同时大幅提升了计算性能;在去年双11,在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下,算法极大的保证了引擎的效率,使排序对引擎的压力下降40%,同时使排序效果有较大提升 。
面临的问题淘宝的搜索系统无疑是全球最大的电商搜索系统 。“最大”这里包括商品量、用户量,包括引导的成交额、点击成交量,还包括引擎的访问次数、访问QPS…这样一个搜索引擎,所需要面对的访问压力也是巨大的,尤其在“双十一”等大促场景,压力更是平时的数倍 。
另外一般搜索引擎的目标主要是引导点击,而在电商中,排序的结果更希望引导的是成交量和成交额 。
因此我们的搜索系统、排序方案需要考虑多种实际问题 。首先是在有限计算资源情况下,如何拿到更好的排序结果;其次是怎样保证用户的搜索体验,包括结果返回时间、返回商品量等;最后是怎么保证电商场景下的多目标,包括点击、成交量和成交额 。
已有方法的不足学术界和工业界都有大量learning to rank方面的研究,均期望能通过机器学习,为用户给出更优的排序结果 。然而绝大部分相关工作都集中在如何提升排序的质量,却并不关系排序的效率,而太低效的排序方案在实际的工业在线应用中,往往是不可接受的 。
淘宝搜索和其他类似应用主要采取的解决方案是使用一种“两轮排序方案”:在第一轮使用非常简单的特征去得到一个小的候选集;第二轮在小的集合上做复杂的排序 。可是这种启发式的方案并不能保证性能与效果的取舍是最优的 。基于以上考虑,我们需要一种全新的、工业可用的、能更合理平衡效率与性能的排序方案 。
CLOSE排序算法,平衡性能与效率,保障用户体验论文受图像中快速目标检测算法的启发,发现并不是引擎中的每个商品都需要全部特征参与计算、排序——一些基本特征能帮助过滤掉大多数商品;逐渐复杂的特征过滤逐渐难以区分好坏的商品;全部特征排序剩余商品 。
基于这样的思想,论文提出了一种多轮级联排序方法Cascade model in a Large-scale Operational Ecommerce Search application(CLOES) 。
CLOES主要采用了一种基于概率的cascade learning方法,将排序分为多轮计算;将排序效果和CPU的计算量作为优化目标,一起建立数学模型,同时优化 。
除了考虑性能与效率,算法还考虑了用户的搜索体验,保证用户在输入任何一个query后都能在限制时间内得到足够的返回结果 。最后CLOES还考虑了电商场景的特殊性,保障了多目标的平衡与可调整 。
平衡性能与效率的排序(Query-Dependent Trade Off Between Effectiveness and Efficiency)
论文最重要的部分就是怎么样去平衡一个排序算法的性能和效率,那么我们主要使用的方法是cascade learning,即将一次排序拆分成多个递进阶段(stage),每个阶段选用逐渐复杂的特征去过滤一次商品集合 。同时我们使用learning to rank设定,将排序问题转化为一个二分类问题,预估每个商品的点击率 。
文章插图
如图所示,我们记一个商品x(表示为一个k维向量)在Query q下,能通过第j个stage的概率为
文章插图
,其中
秒懂生活扩展阅读
- 淘宝联名信用卡申请入口 淘宝信用卡支付在哪里开通
- 护照号是一生不变的吗
- 日是什么结构
- 电商推广自己的产品的渠道 怎么快速去推广产品
- 哪个动漫里有比较经典的五人组
- 淘宝购物指南 淘宝购物教程新手入门
- 开加盟店的注意事项及技巧 加盟代理要注意什么手续
- 95%的人靠这5招提分 支付宝芝麻信用分怎么提高
- ?儿媳必知与公婆相处的技巧
- 5分钟学会装修店铺 淘宝店铺装修怎么做