《基于语义域语言模型的中文话题关联检测》笔记

来源：互联网发布：windows哪个版本最稳定编辑：程序博客网时间：2024/06/05 16:11

主文献：基于语义域语言模型的中文话题关联检测洪宇等

======================================================================================

名词解释：

语义域：语义趋近一致的语言结构的集合。

语义片段：描述某一语义的最小语言结构

语境：同时包含语义片段及其上下文的语言结构。

报道：是以一系列凝聚于主题的语义片断为框架，并基于因果、推导、包含和发展等关系连接而成的有机整体。

=========================================================================================

参考文献一：依存语法概述袁文宜

依存语法:：依存语法是一种诞生于1959 年的基于词间关系的形式语法，它强调以动词为句子中心，其他词汇依存于动词。

参考文献二：基于依存树库的文本聚类研究

根据词类的依存关系区分谈话类和新闻类文章。如多个名词作定语的情况在新闻类中出现更多（如“农村党风廉政建设信息平台”有一大堆名词作为定语，而口语中很少出现）。

弄清了什么是依存语法和依存语法树，回到主文献。

方法总结

1.把一篇文章划分成很多语义域

a.把文章分成句子

b.句子之间两两组合，把相关度大于r的作为候选语义域，把与所有句子相关度都小于r的直接作为语义域。

c.对候选语义域进行组合成为语义域。组合的规则是，最终的候选语义域中的句子两两之间相关度必须大于r（非传递性）。

2.选出一个和主题最相关的语义域

公式3---越靠前，语义域中包含的特征（所谓特征应该就是除去停用词的其他词语吧，这里指语义域中包含的特征数/全文包含的特征数，反映语义域的篇幅）越多，这个语义域就越相关（靠谱吗？？）（坑爹啊，这个概率之和能等于1吗，是不是需要归一化）

3.从这个语义域中选出特征。

特征包括一元和二元。

一元特征：使用TFsd.IDF。TFsd与TF的区别在于，TF统计词语在全文中出现的频率，而TFsd只统计词语在（某个语义域）中出现的频率。(sd == semantics domain == 语义域)

二元特征：先建立依存语法树，使用公式1计算权重。一个语义域中，词x与词y的二元权重：与TF(x),TF(y)成正比，与log(a+（ni/mi）)成正比。a是平滑因子，用于消除层次对权重的影响。ni是总层次，mi是该词所处的层次。可见mi越小（原文为层次越高，level1高于level2?），权重越大。所以（主语+谓语）的权重肯定要大于（定语+宾语）的权重了。

4.通过主题检测两篇报道的相关性

公式2 报道1的主题（应该是前面估计出来的那个最相关的语义域）中的每一个特征（一元和二元的）与报道2的主题的匹配情况。

报道2的主题并不直接使用最相关的那个语义域，而是使用（求和（语义域*该语义域成为主题的概率））

5.采用K-L距离评估主题语义间的相关性

公式4 K-L距离介绍：http://hi.baidu.com/shdren09/item/e6441ec2bd495b0e0ad93aca