本文共 3942 字,大约阅读时间需要 13 分钟。
商品检索的主要的问题还是在于用户query和商品描述之间存在GAP,特别是中长尾query。把问题分成以下几种类型:
query改写的目标空间可以分为文本空间和意图ID空间两种类型:文本空间包含词、短语、query,意图ID空间主要包括pidvid、性别年龄尺码等自定义tag、一些语义聚合的标签如:"奢侈","可爱"等。所以我们的工作还是主要基于以下两种形式:
向量化改写的基本流程仍然是:query向量化⇒向量相似查找⇒相关性判断
主要优化点在于通过尝试一些有效的向量化方法,对任意query向量化。下面介绍一下我们的做法:
这里我们借鉴的是Skip-Thought Vectors[1],这个算法试图通过seq2seq重建句子周围的句子,如下图所示:
模型的目标函数也是两个部分,一个来自于预测下一句,一个来自于预测上一句。如下式: 我们从session中获取训练预料,假设某个session序列是(s1,s2,...,sn),那么一条训练数据就是(si-1,si,si+1),encoder是si词序列的lstm,decoder是分别si-1和si+1的lstm.这样训练下来decoder的上下文向量就学到了这个句子在session中的上下文表示。 其实除了query session,用query来重建其点过的宝贝标题序列同样适用,只不过decoder阶段换成query点过的标题。这里我们主要借鉴的WR方法[2],作者在论文中证明:在维基百科上的非标签语料库中使用流行的方法训练word embedding,将句子用词向量加权平均,然后使用PCA/SVD修改一下 。 这种权重在文本相似性任务中将效果提高了约10%至30%,并且击败了复杂的监督方法,包括RNN和LSTM, 它甚至可以改善Wieting等人[3]的embeddings.
算法如其名,主要分为W和R两个步骤:根据query的描述文本的类型,我们产出了两种向量:
(1) 基于query自身的词。 (2) 基于query和query点击的宝贝标题的词。针对上述第二种类型,在原有算法的基础上,我们做了一些改进:适当加大query自身词的权重:基于review case发现因为线上已经上了相似query改写/意图改写(标题中可能缺失了一些词),导致原始query自身的某些词被attention的权重偏低。更好的做法是把点击的对象的更多属性参与向量化,比如点击的pidvid,意图id等。
对一些依赖行为的算法,对于一些行为偏少的长尾query通过宝贝的i2i来扩展,可以扩大计算的覆盖率和准确度。这部分我们做了以下工作:
目前候选query集合设置的500W左右,而需要计算相似的query集合数据量已经到9亿+,相似搜索是一个非常大的计算量。计算步骤如下:
这里我们训练一个query相似度的模型。下面介绍下主要部分:
深度模型依赖大量的样本喂养,而接近于真实分布的样本一直是一个难点。我们主要尝试了以下方式:
a) q1和q2的相似度我们用(q1,q2点击标题)的bm25或者(q2,q1点击标题)的bm25来构造弱标签。
b) 用q1和{q2下挂宝贝}的相似度来衡量q1和q2的相似度:用q1去attention q2点击doc中的词,然后向量化和q1 attention自身doc的词向量化距离进行比较,选取一些高置信度的作为label. c) 用简单模型的输出结果来获取样本,用我们已有的GBDT模型来预测,取得分数高于一定阈值或者低于一定阈值的分别作为正样本和负样本。规则构造样本
比如:使用同义词和冲突词的片段替换分别构造正样本和负样本高频词和短语通过语言模型或者点击文档能获取很多扩展的语义,容易获取高质量的embedding。而长尾query由于行为稀少,单存依赖自身信息获取embedding的质量通常不理想。调研了一下基于Skip Convolution或BiLSTM+Self-attention,通过合理设计联合训练网络,把词和短语级别丰富的embedding信息迁移到长尾query上,实现提升长尾字符串embedding质量的目标。
三个维度主要目的在于学习词,短语粒度的语义信息,泛化到所有query。每个维度的query model可以使用跳跃卷积(skip-cnn),主要是考虑商品搜索的query对term位置的信息较为不敏感,也可以选择双向lstm+attention.
其实这个思路和我们的评测人员的思路很像,评测两个query是否相关,除了一个整体判断,更多的是把query拆解成一些‘短语’去判断。对于意图比较宽泛的query,比如畅销手机,大容量冰箱,虽然在query向量改写中会有所体现,但是对于行为较少的query改写的还是不太理想。我们采取的做法是把他们映射到我们的意图id空间,比如价格,销量,pidvid,年龄,性别,尺码,季节,新品等,知识图谱的数据在这里得到了应用。
上述的query改写给我们的目标带来了较大的提升。可以想象query改写的空间依然是巨大的。
对于深度模型我们会继续做,考虑query生成的思路特别是强化学习选词,Query向量的表征空间扩展到属性空间,图像空间甚至是用户空间。关于改写的目标,相关性是基础,但绝不是最终目标,后续会考虑目标改写query的价值甚至是个性化改写。 "相似"对应衡量query之间的关系还是太粗了,后续我们要把query改写的类型明确化,比如同义和蕴含(上下位),对于query之间的关系我们正在尝试一些方法[4]来挖掘。后续我们计划挖掘更多的知识,并考虑如何把知识融入到模型之中。参考文献:
1.Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors2.Sanjeev Arora, Yingyu Liang, Tengyu Ma. A Simple but Tough-to-Beat Baseline for Sentence Embeddings3.John Wieting, Mohit Bansal, Kevin Gimpel, and Karen Livescu. Towards universal paraphrastic sentence embeddings4.Ruiji Fu , Jiang Guo , Bing Qin.Learning Semantic Hierarchies via Word Embeddings转载地址:http://yzina.baihongyu.com/