小红书上首页推荐及热门方法 小红书首页推荐怎么上( 三 )


9个行为的预测模型 (click, hide, like, fav, comment, share, follow, …)Click模型规模: 5亿样本/天,1T数据/天上面简单介绍了小红书的实时计算平台,另外一部分就是TensorFlow和MachineLearning 。2018年12月,小红书的推荐预测模型只是非常简单的Spark上的GBDT模型 。后期在GBDT模型上加了LR层,后来还引入了Deep和Wide 。到2019年7月,小红书推荐预测模型已经演化到了GBDT + Sparse D&W的模型 。小红书主要有9个预测任务,包括click、hide、like、fav、comment、share以及follow等 。其中,Click是小红书最大的模型,一天大概产生5亿的样本进行模型训练,数据量达到1T/天 。

小红书上首页推荐及热门方法 小红书首页推荐怎么上

文章插图
目前小红书的Red ML模型基于KubeFlow,在小红书开始做ML模型时,KubeFlow在开源社区中比较受欢迎,而且TFJob可以支持TensorFlow的分布式训练 。

小红书上首页推荐及热门方法 小红书首页推荐怎么上

文章插图
总结与展望【小红书上首页推荐及热门方法 小红书首页推荐怎么上】小红书从去年年底开始做推荐系统,系统的搭建既依赖开源社区,也拥抱开源社区 。整个实时计算平台的搭建都是基于Flink,也十分期待Flink 1.9 的新功能对于Hive 和批的支持;AI是目前小红书比较强的需求,包括模型训练算力、效率等非常敏感,也会持续关注社区相关技术;后期希望能够融合Flink与AI,将流计算与机器学习无缝整合实现更智能高效的推荐 。

秒懂生活扩展阅读