本篇文章2410字,读完约6分钟

原理也很简单。 如果事先将客户分成小组,然后做客户( user ) -。 这样可以大大简化工程的实现,只需要在线记录各组客户喜欢的内容(实际方法是使用新闻id,也就是新闻对客户群体的各种统计值——基于内存的密钥系统) 。 客户来了之后,找到对应的组,然后推荐这个组喜欢的新闻。 离线时,使用两种聚类算法、地图和plsi,定期在线推送最新的聚类结果。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

为什么要先选择协同过滤算法? cf算法除了在其他场景中成功以外,还有其他重要的优点。 cf是依赖于顾客行为数据的算法,与其他基于拷贝的推荐算法不同,对nlp能力的要求很高。 选择cf的话会绕过nlp (有经验的人都知道,nlp是一个漫长的积累过程,一开始不会达到很好的水平)。 这种拷贝使找到处理领域实际问题的基本方法变得更加容易。 在制作模型时,选择最经典的实现,迅速在线处理大部分问题。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

结合以上总结的新闻推荐面临的课题,可以看出该算法首要处理的是扩展性问题。 这种基于顾客聚类的算法显然也有明显的缺点:1)行为数据不支持cf操作,因此无法处理新顾客和新新闻的冷启动问题。 2 )推荐精度不够,没有真正的个性化。 这是由基于聚类的dcf算法自身的优越性决定的。 3 )实时性不够。 客户的集群无法迅速更新,无法及时了解客户最新的有趣风险。 谷歌信息的另一篇论文处理了这些问题。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

谷歌新闻在万维网上发布了“个人化DNEW Srecommendation Base Donclickbehavior”。 本文重点处理推荐精度和新消息的冷启动问题,复制思路也简单自然,第一是基于贝叶斯理论建模。 他们假设客户的有趣程度包括两个方面:个人不断变化的有趣程度和当前信息热点。 在具体建模之前,作者根据历史数据进行统计分析,验证他们的假设,得出以下基本结论:随顾客有趣的时间而变化,信息热点也随时间而变化。 另一个有趣的结论是,不同地区同一时间的信息热点不同。 下图为地区间体育信息浏览比例。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

这个数字的纵轴是该地区体育信息浏览量占信息浏览总量的比例。 数字越高,这个地区的许多客户越喜欢看体育信息。 横轴为时点,黑线标示的三个时点从右到左分别与奥运会、欧洲杯、职业棒球大联盟相对应。 图中用不同颜色标记的三条线分别表示西班牙、美国和英国。 这张图不仅说明了该地区顾客对体育信息的兴趣随时间、变化而变化,还表明了西班牙、英国等国喜欢看体育信息。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

在这种方法中,客户对当前信息的有趣性进行建模是很重要的。 这取决于客户对此类信息的有趣程度和当前信息的受欢迎程度两个方面。 根据贝叶斯理论,这两个方面可以通过以下公式直接联系起来。

顾客现在对某种信息感兴趣的概率通过总结顾客最近的外出版块的有趣程度来计算,顾客的某个时间版块的有趣程度通过以下公式计算。

这个公式乍一看多而复杂,但其实际意义很简单,可以理解为可以简单地计算出某种类型的信息浏览量在顾客时间块中占全部信息浏览量的比例。 分子的右半部分

这说明了现在的信息在那个地区有多受欢迎(在那个地区被点击的概率),实际上是通过计算顾客在短时间内点击了这样的信息的比例而得到的

总结说,算法非常简洁自然,很好地处理了cf遗留的问题:1)引入了信息类别,处理了新信息的冷启动。 2 )引入客户的趣味性,解决了个性化和推荐精度的问题。 但是,新客户的冷启动需要经过优化空之间。 这是因为同一地区的不同新客户推荐了该地区最受欢迎的副本。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

雅虎日报小组于2009年在万维网上发表了“个人化Drecommendation Ondynamic Ontentusing Predictive Bilinearmodels”,重点介绍了新闻推荐中的冷启动问题 与传统的谷歌信息不同,本文试图解决新客户和新新闻的冷启动问题。 本文的基本假设是,顾客图像可以描绘顾客浏览的趣味性,信息图像也可以表现信息的点击概率,顾客对信息的喜爱程度依赖于静态预测和动态预测,使用基于特征的学习方法建模顾客对新闻的趣味性。 具体而言,客户机xi对新闻zj的有趣得分计算如下。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

bilinearmodel的含义是,如果省略一个参数,则另一个参数与源变量呈线性关系。 例如,在下式中不考虑z时,s与x线性相关。 x、s、z也不进行线性考虑。 另外,如果将客户和新闻的特征分类为静态和动态类别,则上述公式可以编写如下

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

最后一个方程式后面的第一项是静态预测得分,第二项是动态预测得分。

因此,新顾客来的时候,第二个特征是否,因为相当于只通过顾客的人物形象等静态特征来处理新顾客的预测问题。 关于新消息也是如此。 静态特征,如收集到的顾客年龄、性别、地域等基本属性,以及通过其他方法获得的历史新闻等,如同类产品和其他场景下的行为、新闻类别、主题等。 动态特征,如客户在雅虎当天的浏览、点击、得分、时间段新闻和新闻类型统计值等。 如果有预测得分s,可以通过与实际标签的比较,得到机器学习训练的反馈新闻,如客户是否点击了消息r(i,j )等。 本文的优化目标是基于贝叶斯理论的最大后验概率,使用了众所周知的梯度下降法。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

年,雅虎宣布了更有效的拷贝“a contextual-banditapproachtopersonalizednewsarticlerecommendation”的冷启动处理。 本文基于先前流传的搜索开发( ee )例程。 你可能很熟悉为新项目随机展示部分流量并获得反馈。 只有这样,模型才能有更好的建模能力。 这是最幼稚的ee战略。

“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

稍高的做法是上限( ucb )政策3。 假设有360件新货,没有先验知识,同时所有物品的归还完全未知。 各项目的回归平均值有置信区间,随着实验次数的增加,置信区间变窄,对应的最大置信边界接近平均值。 如果我们每次上市都选择信任区间上限最大的,那就是ucb战略。 这个策略的原理也很好理解。 说白了,它达到了两个愿望的效果。

标题:“今日头条成功的核心技术秘诀是什么?深度解密个性化资讯推荐技术 本文作者:ai研习社 2017”

地址:http://www.hongyupm.com/gnyw/13647.html