本篇文章5363字,读完约13分钟
最终采用的比较有效的推荐原因训练数据量超标,基本达到了目前淘宝平台可用训练数据的极限。
该行业最近的迅速发展得益于参考nmt行业的突破。 下图显示了nmt的标准结构。 在这个阶段,将输入序列的新闻传播到固定矢量h_|f|,根据h_|f|逐个解码输出序列。
但是,在标准结构中,源新闻被rnn_forwardencoder编码为固定大小的矢量,但rnn本身存在长距离依赖的问题,如果将任意长度的语句编码为固定长度,则无法充分表现源新闻 很明显,是时候把“关注”上台了。 通过观察机制,可以在解码过程中动态查找源副本中与预测目标单词相关的部分,从而很好地处理上述问题。 下图是bahdanau-attention对齐模型的算法原理和对齐效果的概念图,省略说明。
我们的data2seq(d2s )模型主要参考基于nmt观察力的data2 seq 2 seq模型,其核心框架也是编解码器。 但是,通过深入思考以下两个任务的优点,我们很容易发现d2s和nmt有很大不同。 这表明,这些不同的决策无法通过适合nmt行业的编解码器结构轻松理解d2s模型。 nmt和d2s的图示如下所示。
nmt和d2s最大的区别在于,可以可逆地理解为其任务中的输入输出是一对一对应的。 例如,在上图的汉英翻译示例中,“团结就是力量”和“联合就是力量”是可逆的,这意味着虚拟的“世界语”含义空之间共享着相同的代码,这也是nmt可以迁移学习的
在d2s任务中,即使输入相同,不同的输出也可能是正确的。 也就是说,输入和输出是一对多的。 当然,输出副本不能恢复为输入副本。 这个很明白。 例如,专家选择的卖点和最终的介绍文案词可以完全不同,但也许都是正确的。 根据这一观点,输入端的附加设计控制条件由d2s模型的一对多特征决定,是必要的。 模型的最终控制能力不是一个原因而是结果,不是为了控制而控制。 从其他角度来看,控制部实际上对应于第3部分中说明的nlg进程中的通信对象模块。
因此,基于上述考虑,建议将整个d2s模型分为数据/序列/控制三部分。
数据端:
它与数据表示和建模方法有关,也就是如何表示材质库的副本。 本章介绍数据端编码器的方法,重点介绍数据端的三种测试模式和动态数据的训练。
序列的末端
:以生成复制序列的能力为中心。 一般来说,最简单的seq端是n-gram模型。 seq指的是基于rnn (或者其变化lstm/gru )的语言模型。 我们在这里可以发挥的是,解码器设计更多复杂细致的模型,采用更准确的训练数据,使模型具有较强的表现力。 本文首先介绍深度剩余连接互联网的应用。
控制侧
这也是d2s独特而重要的部分。 如上所述,生成流利的语音并不困难。 从不同维度准确控制seq的生成,引入重复问题控制、结果准确性、话题相关性、长度控制、风格控制、卖点选择控制、多样化控制等很重要。 这也是nlg研究的焦点。 为了实现这样的控制,有必要在对模型的编码器和解码器施加力量的同时进行解码和预测,进行控制。
下图显示了d2s模型的总体结构。 我们实际采用的模型是这个模型结构的子集。 编码器分为两部分。 编码方法包括cnn美国有线电视信息网和简单的嵌入。 解码器生成副本时,通过观察力机制选择卖点,控制信号在解码器rnn和预测下一个单词的softmax层输入之前参与控制。 接下来,按照数据/序列/控制的顺序介绍我们的事业。 最后,简要介绍库存生成的工作。
6 . 2 . 1 . 1数据显示
d2s的输入数据(即“卖点”或“话题”)由两个字段联合表示,如下图所示。 其中,key是知识库的词条类型id,即kid,value是从知识图像中同义词的知识中统一出来的词条id。 例如产品原文为“‘channel”,型号对应的输入主题为“kid = brand waller =香奈儿”。 除了与kid识别同义统一之外,还利用知识地图的扩展新闻扩大了主题的涵盖范围。 例如,关于香奈儿,我们将扩充“企业品牌产地:法国”、“企业品牌等级:奢侈品”等新闻,丰富我们的输入新闻。
与kid识别同义统一有两个优点。 第一,kid的导入赋予模型很强的泛化能力,可以起到“模板”一样的作用。 关于稀有值,可以通过kid知道表现和说明。 后述的动态新闻的训练也通过kid实现了。 其实,复制机制实际上实现了。 其次,用同义词将value规范化后,噪音数据会变少,更容易学习模型。 由于数据端更加重视语义信号而不是表达的多样化,语义规范化的必要性自然是必要的选择。
在模型的具体语义表示中,主题的键和值有独立的嵌入新闻,得到它们的语义维表示,再将它们结合起来得到模型中主题的表示。 关于输入整体的显示,以测试了rnn、cnn、concat三种模式的编码器的方法为对象。 最后采用的是concat模式,只采用主题key和值的嵌入式语义编码作为编码器级输出,输入不需要rnn或cnn提取特征。
encoder采用的concat模型乍一看听起来很奇怪。 除了考虑计算多、噪声多之外,最重要的原因是rnn和cnn通过捕捉局部的关联性发挥作用。 在自然语言行业,他们会提取像n-gram这样的新闻。 但是在data2seq模型的设计中,实际上不同的话题是独立无序的,cnn和rnn模型在这种无序的假设下无法工作。 否则,对于相同的输入,在打乱顺序后所捕捉到的意义表现显然不会发生变化。 实际数据的验证也证实了我们的假设。 即使在我们没有承认的rouge指数和mleloss中,rnn模型也没有表现出明显的特征,具体的实验数据有必要回归。
处理数据的显示后,数据中包含什么样的拷贝、使用什么样的结构是亟待解决的问题。 我们参照百度论文的实践,设计了基于计划的d2s模型。 百度诗写的训练数据见下图,直接提取keyword (下图第一列)作为目标副本(即诗句)的数据部分,将前面的诗句作为context进行训练。 在预测阶段(下图2 ),客户查询经过关键字提取关键字扩展阶段,计划4个关键字,并逐步生成诗。
这个结构看起来很平滑,但是具有可以利用知识图像通过keyword进行扩展的优点。 也可以通过输入“奥巴马”来计划“西风/奥巴马”“总统”“美国”“民主”,如下图所示。 但是,这种方法最大的问题是规划非常困难。 另外,诗景前后两句虽然有联系,但本质上是独立的,在某种程度上是可分割的。 所以无论百度写诗还是微软肖邦写诗,都可以使用这个结构。 但是,推荐商品的理由是连续段落。 虽然在这个层次上不能采用基于计划的方法,但是让我们尝试在段落的粒度上采用计划。
事实上,基于计划的方法的优点是可以自由控制主题,但具体问题是计划主题之间的匹配会带来越来越多意想不到的例子。 另外,这个模型只能学习直接的关系。 例如输入“五条裤子”这个标题,生成的复印件很难有“半截裤子”之类的词。 也就是说,模型有点“直”。 为了解决这个问题,下图显示了数据端的拷贝和结构设计。
如上图所示,data部分有两个来源。 一个是图中的蓝色部分,来自商品理解的结果,另一个是目标复制理解的结果,两个部分有一定的交叉。 基于计划的模型是我们之前说的。 数据结构分为两个部分,一部分是核心主题,另一部分是上下文主题第二模式和第三模式只有一层平面输入。 区别在于,item-topicsmode的所有话题都来自商品本身,而all-topicsmode是商品和目标凝聚的结果。
最后,在模型中选择了全主题模型,在预测中采用了项目主题。 item-topicsmode最后没有被采用,除了mleloss明显下降外,第一个原因是,通过我们的分解,其实文案中的话题和商品中的话题的交集没有我们想象的那么高,只有20%左右。 也就是说,如果模型没有卖点a,那么如果写出与卖点a相关的模式,很多文案来源就会不一致。 但是,不难理解从文案中提取的话题并不完全存在于商品话题中。 一部分是专家从图片和详细网页上得到的,很难提取新闻。 有差异是正常的。
all-topicsmode最大的贡献是保证预测结果的正确性。 此外,与基于计划的模型相比,这种方法的最大特点是允许模型选择卖点。 下图是搜索8月份在顶升场景下购买的短文的整篇文章的例子,也是商品裙子类。 仔细看四种商品的购买指南,各商品提到的卖点还是很独特的。
以上是比较静态数据培训相关的设计,但如上所述,d2s模型的非常重要的是从动态数据中获取越来越多的新闻,写越来越多的干货。 但是,动态数据的样本实际上很少被标记。 接下来以“时尚趋势”等动态数据的训练为例,简单介绍一下我们的实践。
在训练阶段,首先从事前规则和w2v语义的相似度中发掘“人气”、“人气”、“人气”等与流行趋势相关的词语,将短语最卖点的原kid替换为“kid=人气”。 在预测阶段,将从数据中挖掘的热门卖点替换为“热门”,生成的数据效果如下:
第一个产品将“kid颜色值=深褐色”的kid更改为“kid保罗”。 一个产品的推荐理由是“这件深褐色毛衣今年很流行,很有女人味。 穿着西装看起来很瘦,腿线条很长,个子很高。 ”。 准确描述深茶色的流行趋势是有根据的,关于流行趋势的说法很多。
当然,如果完全替换kid的话,商品会丢失,同时原始的kid新闻也会丢失,所以追加了实验,追加了两个kid,得到了新的kid。
基于6.2.2.1的单层rnn语言模型
简要介绍了基本的rnn-语言模型。 语言模型本身计算一个句子e=e_1、e_2、e_t(e_t是第t个单词)是自然语言。 语言模型的目标是
语言模型的核心问题是预测p(e_t|e_1~e_t-1,即从e_1~e_t-1预测e_t,最简单的是基于统计的n-grammm (语言) 我们常用的word2vec是nn-lm的查找表的中间产物。
但是,很明显,nn-lm本质上是n-gram模型的缺陷,即建模长度有限,只能采用前n-1个词。 上图的concat模式中n个词增加,由于前面位置的权重相同,所以模型的学习效果会下降。 其实在自然语言中,远距离依赖很常见。 例如,在以下的例子中,说明了在推测“他自己”和“她自己”时,分别依赖于句子前面的“he”和“she”。
下图为rnn-lm的公式。 m_t是第t-1个字的嵌入结果。 与nn-lm不同,rnn-lm只有一个输入。 以前的新闻集成到了h_t-1中,所以不需要将前面的序列作为直接输入。 当然,rnn本身存在梯度消失的问题,但拷贝生成模型的解码器端实际上采用了rnn的variantlstm。
由于我们采用了大量的训练数据,因此在模型解码阶段可以支持许多复杂的模型和大容量的模型。 我们在这方面的首要尝试是从互联网的广度和互联网的深度立场出发。 关于互联网的宽度,我们最初测试了增加num _ hiddensize。 效果相当明显。 在互联网的深度上,我们测试了下图剩下的连接模式的stackedrnn。
以下是不同版本电子邮件丢失的几个变化。 单层互联网剩余连接的损失减少,意味着在推断上一个词时,将上一个词作为直接输入是有益的。 增加互联网的宽度和深度可以减少损失,但会受到模型容量问题的限制。 目前,num _ hidden = 100,4,只有4层剩余互联网可以用16g单卡gpu测试到最大。
在本部分中,我们将尝试被推到“戴尔连接的深度网络”和“注册硬件网络”这两个其他项目的优先级的项目,并暂时搁置,在稍后的实验之后进行补充。
如下图所示,在seq的网络结构中进行了尝试。 中心点是分割文维和单词维的2层rnn互联网,也是卖点选择中的2层观察力的联合。 我们尝试双重rnn是因为我们希望模型在时间长的空之间有更好的书写能力,暂时的实验效果还不明显。 的主要原因是推荐原因的训练数据不像诗词一样自然有好的断句效果,人才的断句质量差,影响效果。
6 . 2 . 2 . 4复制机制
本质上,复制机制基于组合生成和提取模型。 这方面的研究很多,第一是为了处理oov的问题。 将指针和生成器分开,分别训练指针/生成器和概率互联网。 另一种例程是使用p/g值来合计源处的观察力向量的概率和每个单词找到max的概率,如上述整体框图所示。 这个做法原理比较合理,但训练十分缓慢,在实践中没有被采用。
事实上,在我们最新仓库动态壁纸超清的训练数据充足、互联网规模较大的情况下,词粒度oov带来的问题相对较少,词粒度效益检验不明显。 在拷贝机制更深层的思考中,我们想尝试将抽象的拷贝生成和生成的拷贝生成有机地结合起来的方法。 例如,发行者的推荐理由数据和详细页面上的句子的交叉还是很高的。 也就是说,主要在写文案时也引用了详细页的文章内容。 这种“引用”行为需要由复制机制携带,不是词汇粒度的复制,而是句子-或片段-粒度的复制。 我相信如果能处理好这个问题的话,能对拷贝生成的技术行业做出很大的贡献。 这项工作还在推进中。 暂时放在这里,等结果出来再补充。
6.2.3.1软硬件结合的控制策略
控制端需要完成目标拷贝的控制。 控制策略通常分为两类:软方法,即通过设计机制允许模型自身学习目标端。
标题:“最新库里动态壁纸超清”
地址:http://www.hongyupm.com/gnyw/7950.html