文本、词相似度论文阅读笔记

来源:互联网 发布:路桥bim软件 编辑:程序博客网 时间:2024/06/09 16:15

基于语义理解 的文本相似度算法

    与 基 于统 计学 的相 似度计算 方法相 比,基于语 义理解的相似度计算方法 不需要大规模语料库的支持 ,也不需要 长时间 的训练 ,具有准确率高 的特点 ,相关 的研究 主要有使用 W ordN et 进行相 似度计算 的方法 ;目前 ,基于语义理解 的相似 度计算大 多限于词语 或句子范 围 。

    文本的相似度包括:词语 与词语 、词语与句 子 、词语 与段落 、句子与句子 、句子 与段落和段落与段落等 

    将文本相似度 的计算 划分 为 3 个层 次 :词语层 次 ,包括 词语 与词语 、词语 与句子 、词语 与段落之间的相似度计算 ;句子层 次 ,包括 句子与句子 、句子 与段落之间的相似度计算 ;段 落层次 ,包 括段落与段落之间的相似度计  
    在 词 语层 次 中,相 似度用 于衡 量文本 中词语的可替换 程度  

    当前基于语义理解 的相 似度研究 还大多停 留在词语 范 围 ,主要 是 由于句子相 似度较 词语 相似度的计算更 为复杂 ,其 不仅包括语义关系 的辨别 ,还包括句子结 构的辨别等 问题 

    段落层次的话如下:


T ex t S im ilarity C om p u tin g B ased o n W ord C o-O ccu rren ce 
    传统的向量空间模型VSM是一种统计的文本表述模型并没有考虑到词语在上下文中的关联性,共现模型[]是一种 以统计 为基础 的 自然 语言处理模型,在大规模语料中,若干个词经常共同出现(共现 ) 在文 本的 同一窗 口单 元 (如一句话 、一 个 自然段等) ,则认 为这若 干个词在 意义一L 是相互关 联 的。 共 现的概率越高 ,其 相互 关联越 紧密 .并且 表示 一定 的语 义 概念 。  

大规模句子相似度计算方法

目前计算句子相似度的方法主要有:基于N元模型的方法[3, 4]和基于编辑距离的方法[5]等,并且在这些方面的研究也取得了许多进展。但是,这些方法主要是针对机器翻译系统的评测,一是评测时要求处理的语料都比较小,这些方法难以胜任。二是这些方法几乎没有使用任何语法、语义知识,不能有效地融合翻译系统其他模块相关的处理结果和处理方法,最终效果难以提升。

多层次句子相似度计算的新方法:

首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子

在处理过程中,我们把句子表示成单词的集合。




基于泛化的匹配度计算,指的是在泛化的基础上计算候选实例与输入的待翻译句子间的模糊匹配度。

原创粉丝点击