本篇文章2239字,读完约6分钟
以下要点介绍个性化推荐的方法。 上图是整体流程图,我们一步一步说吧。
你推荐哪里,也就是你推荐的场景是哪里? 影响今后如何拍摄样品和特写。
I .给谁? 我是你的参加者。 这决定了如何获取你的样本和顾客图像的特征。
iii .你什么时候推荐? 也就是说,时间的顾客通常以商品的行为为重点? 引入这个特点可以使推荐效率最大化
v .定义可以获取那些数据,数据结构是什么,直接影响要素的构建质量。
2 .建筑特征
一、与场景相关联的客户行为指标,如客户曝光、点击、下载、点击概率、下载率等。
ii .与人物相关的顾客图像指标,如年龄、性别、学历、会员、黄钻等。
iii .与项目相关联的属性指标,如游戏类型、游戏主题等。
然后生成顾客行为特征、顾客肖像特征、对象肖像特征、对象属性特征四种特征。
提示:客户行为特征有两个简单的行为特征,如曝光量、点击量、下载量、点击概率和下载率。 另一个非常重要(后来创造特征)。 例如,客户点击不同游戏主题的概率等,是客户对项目属性的行为特征。 一个头像的特征是指一个物品在一个顾客头像下的行为比例,例如游戏不同性别的下载比例,用于后续特征。 这是非常重要的。 特征性的时间覆盖可以根据情况进行明确,最好是展望足够稳定的顾客,最好包含统计日的最近数据。
第二步:合并上一步的特征,分为顾客特征和项目特征,合并为两部分(两个表)。
温馨提示:最好收集所有特征数据。 这样一来,只要你的特征类型丰富,就会引入一些目标业务以外的新客户,从而带来新客户,避免后续预测出现瓶颈。
第3步:在部署lr模型并进行培训之前,需要进行特色工程业务。
清除、删除或输入影响培训的脏数据,如空值和异常值。
ii .标准化为了消除不同维度对模型拟合的影响,需要将特征标准化,从而能够加快模型拟合,提高效果。 可以根据情况使用以下方法:
( a )最小-最大: s(x ) =(x最小( x ) )/(最大( x )最小( x ) )
( c )对数: s(x ) =ln(1 x )/(1 ln(1 x ) )
其他:
前瞻性特点: s(x ) = (1- exp (1/3)/avg(x ) * x )/(1exp(1/3)/avg(x ) * x )。
的负特征: s(x ) =1- ( 1至exp (1/3)/avg(x ) * x )/( 1至XP (1/3)/avg(x ) * x )。
iii .平滑度、点击概率、保存率等转换率特征。 分母小的话,会发生购买率极高的异常情况,经常影响模型评价的正确性,所以需要平滑化。 有好几种方法。
( b )分母大于某位数时,否则只有在0或其他情况下使用该汇率
( c )在分母中添加足够大的数据,以淡化这种负面影响,例如这一特征的平均值;
iv .将原始特征值分割为一系列0和1矢量的离散化。 离散特征有几个优点。
( a )离散特征易增减,模型易快速迭代;
( c )离散化的特征对异常数据具有很强的鲁棒性:例如,一个特征是年龄30为1,否则为0。 如果特征不离散化,“年龄300岁”的异常数据会对模型产生很大的干扰。
( d ) logistic回归是广义的线性模型,表现能力有限的单个变量离散为n个后,各变量各有自己的权重,相当于在模型中引入非线性,可以提高模型的表现能力,提高拟合度。
( e )离散化后,可以进行特征交叉,从m ^ n个变量到m*n个变量,可以进一步引入非线性,提高表达能力;
( f )特征离散化后,模型更稳定。 例如,客户年龄离散,20-30岁客户满1岁就不会变成完全不同的人。 当然区间附近的样本是相反的,所以如何划分区间是一门学问。
提示:顾客肖像特征和物品属性特征必须离散化,物品属性的顾客行为特征和物品肖像特征也必须离散化,成为后续特征的组合,其他连续的特征因情况而异。 如果需要高速互联网,可以省略它,也可以使用gbdt之类的算法自动离散特征。
v .特征组合,前一步离散化的目的之一是为了方便。 可以在从数据中真正推荐客户最有兴趣的项目的同时,在模型中引入非线性,提高模型的表达能力,改善效果。 典型的cross方法包括内积和笛卡儿积,可能用于更具体的情况。 笛卡儿积带来的特征性扩张很厉害。
提示:以下两种类型的交叉必须符合客户人物形象特征x物品人物形象特征复制属性的客户行为特征x复制属性特性。 客户与项目之间的交叉可以根据具体情况进行。
vi .特征过滤器的目的是选择模型的最佳特征子集。 特征之间有一点相互作用。 例如,有些特征包含其他特征。 有些特征与其他特征相关。 有些特征需要与其他特征结合起来发挥作用。 有些特征是负相关的。 根据这些特征之间的关系,选择适当的特征集会对模型的效果产生很大的影响。 有两个选择。
( a )测量单一特征值和目标变量,即样本标签值之间关系的滤波器。 常用的方法有相关系数、卡方检验、新闻增益、基尼系数
( b )纳入,我认为这是比较可行的方法。 其思路是利用模型本身自动选择特征。 例如,正则化――l1lasso具有特征选择的能力,决定树,每次选择分类节点时,都选择最佳的分类特征进行分割。
提示:样本数据可以通过r对训练进行采样。 输出的结果是特征性的p值得分,如下图所示,更容易筛选出初步的特征。 也可以在lr训练之前尝试一次rf训练,按照得到特征重要度的顺序进行标记,再按照该顺序选择比例较大的特征放入lr进行训练。
标题:“个性化推荐技术(个性化推荐的弊端)”
地址:http://www.hongyupm.com/gnyw/14159.html