《基于语义域语言模型的中文话题关联检测》笔记
来源:互联网 发布:windows哪个版本最稳定 编辑:程序博客网 时间:2024/06/05 16:11
主文献:基于语义域语言模型的中文话题关联检测 洪宇等
======================================================================================
名词解释:
语义域:语义趋近一致的语言结构的集合。
语义片段:描述某一语义的最小语言结构
语境:同时包含语义片段及其上下文的语言结构。
报道:是以一系列凝聚于主题的语义片断为框架,并基于因果、推导、包含和发展等关系连接而成的有机整体。
=========================================================================================
参考文献一:依存语法概述 袁文宜
依存语法::依存语法是一种诞生于1959 年的基于词间关系的形式语法,它强调以动词为句子中心,其他词汇依存于动词。
参考文献二:基于依存树库的文本聚类研究
根据词类的依存关系区分谈话类和新闻类文章。如多个名词作定语的情况在新闻类中出现更多(如“农村党风廉政建设信息平台”有一大堆名词作为定语,而口语中很少出现)。
弄清了什么是依存语法和依存语法树,回到主文献。
方法总结
1.把一篇文章划分成很多语义域
a.把文章分成句子
b.句子之间两两组合,把相关度大于r的作为候选语义域,把与所有句子相关度都小于r的直接作为语义域。
c.对候选语义域进行组合成为语义域。组合的规则是,最终的候选语义域中的句子两两之间相关度必须大于r(非传递性)。
2.选出一个和主题最相关的语义域
公式3---越靠前,语义域中包含的特征(所谓特征应该就是除去停用词的其他词语吧,这里指语义域中包含的特征数/全文包含的特征数,反映语义域的篇幅)越多,这个语义域就越相关(靠谱吗??)(坑爹啊,这个概率之和能等于1吗,是不是需要归一化)
3.从这个语义域中选出特征。
特征包括一元和二元。
一元特征:使用TFsd.IDF。TFsd与TF的区别在于,TF统计词语在全文中出现的频率,而TFsd只统计词语在(某个语义域)中出现的频率。(sd == semantics domain == 语义域)
二元特征:先建立依存语法树,使用公式1计算权重。一个语义域中,词x与词y的二元权重:与TF(x),TF(y)成正比,与log(a+(ni/mi))成正比。a是平滑因子,用于消除层次对权重的影响。ni是总层次,mi是该词所处的层次。可见mi越小(原文为层次越高,level1高于level2?),权重越大。所以(主语+谓语)的权重肯定要大于(定语+宾语)的权重了。
4.通过主题检测两篇报道的相关性
公式2 报道1的主题(应该是前面估计出来的那个最相关的语义域)中的每一个特征(一元和二元的)与报道2的主题的匹配情况。
报道2的主题并不直接使用最相关的那个语义域,而是使用 (求和(语义域*该语义域成为主题的概率))
5.采用K-L距离评估主题语义间的相关性
公式4 K-L距离介绍 :http://hi.baidu.com/shdren09/item/e6441ec2bd495b0e0ad93aca
- 《基于语义域语言模型的中文话题关联检测》笔记
- 基于语义的物体检测笔记
- 笔记-话题模型&LDA
- 常见的话题模型
- 基于光流的视频语义分割和物体检测
- lcc 源码读书笔记之c语言的语义检测
- 利用Python gensim基于中文语料建立LSA隐性语义模型
- 基于中文语义词典的语义相关度量方法比较研究
- 基于机器学习的人头检测模型
- PRICAI 2016 论文精选 | 基于隐含回复的群组聊天话题检测
- 基于R语言的关联规则实现
- 【中文分词系列】 5. 基于语言模型的无监督分词
- 基于神经网络语言模型的中文新闻文本聚类算法
- 基于隐马尔科夫模型的中文分词研究
- 基于隐马尔科夫模型的中文分词研究
- 基于二元语法模型的中文分词
- 基于HMM的中文分词模型实现
- 基于视频的车辆检测(c语言)
- android(7)_数据存储与访问1_文件
- linux下eclipse+gcc(cdt)的eclipse配置库文件(lib)方法
- hdu 1171 Big Event in HDU 平均分堆问题
- C程序设计课程第十二堂课后作业
- 建立自己的 host 更快的进行试验 ip domain-lookup
- 《基于语义域语言模型的中文话题关联检测》笔记
- 标准shell script示例
- Restore IP Addresses
- 早发白帝城
- SQL语句大全
- speex编解码在android上实现
- Linux-dd命令详解
- Oracle Cursor
- 2013年CSDN高校俱乐部全国巡讲