《基于语义域语言模型的中文话题关联检测》笔记

来源:互联网 发布:windows哪个版本最稳定 编辑:程序博客网 时间:2024/06/05 16:11

主文献:基于语义域语言模型的中文话题关联检测 洪宇等

======================================================================================

名词解释:

语义域:语义趋近一致的语言结构的集合。

语义片段:描述某一语义的最小语言结构

语境:同时包含语义片段及其上下文的语言结构。

报道:是以一系列凝聚于主题的语义片断为框架,并基于因果、推导、包含和发展等关系连接而成的有机整体。

=========================================================================================

参考文献一:依存语法概述 袁文宜

依存语法::依存语法是一种诞生于1959 年的基于词间关系的形式语法,它强调以动词为句子中心,其他词汇依存于动词。

参考文献二:基于依存树库的文本聚类研究

根据词类的依存关系区分谈话类和新闻类文章。如多个名词作定语的情况在新闻类中出现更多(如“农村党风廉政建设信息平台”有一大堆名词作为定语,而口语中很少出现)。


弄清了什么是依存语法和依存语法树,回到主文献。


方法总结

1.把一篇文章划分成很多语义域

a.把文章分成句子

b.句子之间两两组合,把相关度大于r的作为候选语义域,把与所有句子相关度都小于r的直接作为语义域。

c.对候选语义域进行组合成为语义域。组合的规则是,最终的候选语义域中的句子两两之间相关度必须大于r(非传递性)。

2.选出一个和主题最相关的语义域

公式3---越靠前,语义域中包含的特征(所谓特征应该就是除去停用词的其他词语吧,这里指语义域中包含的特征数/全文包含的特征数,反映语义域的篇幅)越多,这个语义域就越相关(靠谱吗??)(坑爹啊,这个概率之和能等于1吗,是不是需要归一化)

3.从这个语义域中选出特征。

特征包括一元和二元。

一元特征:使用TFsd.IDF。TFsd与TF的区别在于,TF统计词语在全文中出现的频率,而TFsd只统计词语在(某个语义域)中出现的频率。(sd == semantics domain == 语义域)

二元特征:先建立依存语法树,使用公式1计算权重。一个语义域中,词x与词y的二元权重:与TF(x),TF(y)成正比,与log(a+(ni/mi))成正比。a是平滑因子,用于消除层次对权重的影响。ni是总层次,mi是该词所处的层次。可见mi越小(原文为层次越高,level1高于level2?),权重越大。所以(主语+谓语)的权重肯定要大于(定语+宾语)的权重了。

4.通过主题检测两篇报道的相关性

公式2  报道1的主题(应该是前面估计出来的那个最相关的语义域)中的每一个特征(一元和二元的)与报道2的主题的匹配情况。

报道2的主题并不直接使用最相关的那个语义域,而是使用 (求和(语义域*该语义域成为主题的概率))

5.采用K-L距离评估主题语义间的相关性

公式4 K-L距离介绍 :http://hi.baidu.com/shdren09/item/e6441ec2bd495b0e0ad93aca

原创粉丝点击