短文本语义比对调研

来源：互联网发布：tcp ip网络协议分析编辑：程序博客网时间：2024/04/30 09:45

短文本匹配调研
一．问题背景
机器智能问答FAQ中，输入新文本(语音转文本)后，和对话库内已有句子进行匹配，匹配完成后输出对应问题答案。而这里主要研究的就是两个句子如何计算它们之间语义相似度的问题。
二．方案调研
1.余弦计算短文本相似度度量
a)步骤
（1）找出两个短文本的关键词；
　（2）每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频
　（3）生成两篇文章各自的词频向量；
　（4）计算两个向量的余弦相似度，值越大就表示越相似。
b)举例
句子A：这只皮靴号码大了。那只号码合适
句子B：这只皮靴号码不小，那只更合适
怎样计算上面两句话的相似程度？
基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。
第一步，分词。
句子A：这只/皮靴/号码/大了。那只/号码/合适。
句子B：这只/皮靴/号码/不/小，那只/更/合适。
第二步，列出所有的词。
这只，皮靴，号码，大了。那只，合适，不，小，很
第三步，计算词频。
句子A：这只1，皮靴1，号码2，大了1。那只1，合适1，不0，小0，更0
句子B：这只1，皮靴1，号码1，大了0。那只1，合适1，不1，小1，更1
第四步，写出词频向量。
　　句子A：(1，1，2，1，1，1，0，0，0)
　　句子B：(1，1，1，0，1，1，1，1，1)
到这里，问题就变成了如何计算这两个向量的相似程度。我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, …]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。
使用余弦公式计算两个句子向量
句子A：(1，1，2，1，1，1，0，0，0)
和句子B：(1，1，1，0，1，1，1，1，1)的向量余弦值来确定两个句子的相似度。
计算结果中夹角的余弦值为0.81非常接近于1，所以，上面的句子A和句子B是基本相似的。
c)生产环境流程图
这里写图片描述

2.词——向量的转换word2vec
word2vec是一个将词转化为向量的工具，此工具旨在将语义相近的词转为相似的向量，在看了文档的例子后深深被折服，原来词向量还可以这么玩：
vector(‘Paris’) - vector(‘France’) +vector(‘Italy’) ≈vector(‘Rome’)
vector(‘king’) - vector(‘man’) + vector(‘woman’) ≈vector(‘queen’)
这里就不具体介绍word2vec的原理了，可参考官方文档。
应用流程图：
这里写图片描述
这个流程的关键是语料库和分词器的选取，鉴于应用在智能问答场景，就需要找一些多口语的语料库。而分词器我以前用过的IK只能算是入门级，现在流行的有HanLP分词中的NGram分词(带有词性标注、人名识别、地名识别等功能)，crf（基于条件随机场）分词，和Hmm（二阶隐马分词）分词，以及结巴分词。
三．方案对比
方案一优点：
流程简单易懂，如果使用稀疏方式存储，非常简洁。在产品开发角度来说容易迅速迭代出产品，如果产品需要一个快速开发的demo用于演示，可选。
方案一缺点：
忽略了词与词之间的关联性，任何两个词都是孤立的，存在语义鸿沟词（任意两个词之间都是孤立的，不能体现词和词之间的关系），从而导致误差率较高。同时，由于向量高维，在进行一些向量计算时候可能比较麻烦。
方案二优点：
解决了语义鸿沟问题，且向量维度可控，计算方便，误差率相对低。
方案二缺点：
合适的语料库选择很关键，且预料库理论越庞大多样，训练出的模型越准确。整个训练原理较为复杂，训练过程不易控制。而不明原理直接使用可能会导致后期优化困难。

此调研文档因为平时需要上班时间不充足，所以整体不够详细，对目前市面上现有针对语义分析的解决方案覆盖范围较小。两个流程图是根据自己的想法画的，可能存在不妥之处，有任何问题欢迎指正。谢谢！

1 0