文本、词相似度论文阅读笔记

来源：互联网发布：路桥bim软件编辑：程序博客网时间：2024/06/09 16:15

基于语义理解的文本相似度算法

与基于统计学的相似度计算方法相比，基于语义理解的相似度计算方法不需要大规模语料库的支持，也不需要长时间的训练，具有准确率高的特点，相关的研究主要有使用 W ordN et 进行相似度计算的方法；目前，基于语义理解的相似度计算大多限于词语或句子范围。

文本的相似度包括：词语与词语、词语与句子、词语与段落、句子与句子、句子与段落和段落与段落等

将文本相似度的计算划分为 3 个层次：词语层次，包括词语与词语、词语与句子、词语与段落之间的相似度计算；句子层次，包括句子与句子、句子与段落之间的相似度计算；段落层次，包括段落与段落之间的相似度计算
在词语层次中，相似度用于衡量文本中词语的可替换程度

当前基于语义理解的相似度研究还大多停留在词语范围，主要是由于句子相似度较词语相似度的计算更为复杂，其不仅包括语义关系的辨别，还包括句子结构的辨别等问题

段落层次的话如下：

T ex t S im ilarity C om p u tin g B ased o n W ord C o-O ccu rren ce
传统的向量空间模型VSM是一种统计的文本表述模型并没有考虑到词语在上下文中的关联性，共现模型[]是一种以统计为基础的自然语言处理模型，在大规模语料中，若干个词经常共同出现(共现 ) 在文本的同一窗口单元 (如一句话、一个自然段等) ，则认为这若干个词在意义一L 是相互关联的。共现的概率越高，其相互关联越紧密．并且表示一定的语义概念。

大规模句子相似度计算方法

目前计算句子相似度的方法主要有：基于N元模型的方法^{[3, 4]}和基于编辑距离的方法^[5]等，并且在这些方面的研究也取得了许多进展。但是，这些方法主要是针对机器翻译系统的评测，一是评测时要求处理的语料都比较小，这些方法难以胜任。二是这些方法几乎没有使用任何语法、语义知识，不能有效地融合翻译系统其他模块相关的处理结果和处理方法，最终效果难以提升。

多层次句子相似度计算的新方法：

首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子

在处理过程中，我们把句子表示成单词的集合。

基于泛化的匹配度计算，指的是在泛化的基础上计算候选实例与输入的待翻译句子间的模糊匹配度。

阅读全文

0 0