提取关键短语tutorial笔记

来源:互联网 发布:阿里云别名解析 编辑:程序博客网 时间:2024/06/04 18:52

 

这是《AutomaticKeyphrase Extraction:A Survey of the State of th Art》一文的笔记。

 

影响短语提取的四个要素

1.        短语的长度

2.        文档结构的一致性

3.        文章主题的变化性

4.        短语之间主题的关联性


短语提取方法


短语提取的步骤:

1.        提取出候选词语

2.        使用(非)监督学习方法进行筛选

 


选择候选词语:


1.        去除停用词

2.        词性标注

3.        使用n-gram选择候选词

4.        筛选掉不符合lexico-syntactic模式的短语


监督学习方法:


1.        任务重构(task reformulation)

2.        特征设计(feature design)


任务重构:


把问题重铸(recast)为二元分类问题:是否是候选词。


特征:


Within-Collection特征:


1.        tf*idf

2.        短语距离(这个词语与它第一次出现的位置的距离)

3.        监督式短语(在训练集里这个词语作为关键短语的次数)

4.        短语的长度和扩展性(这个词语第一次出现的位置和最后出现的位置之间有多少个word)


结构性特征:


短语在文档里所属的部分(摘要、正文、结尾等)。经验表明这个特征对于关键短语提取是有用的。


句法特征:


词性序列、后缀序列等。经验表明这个特征对于关键短语提取是无用的。


外部机遇资源的特征(External Resource-Based Features):


例如:一个短语被认为是候选的,如果它经常在Wikipedia里被当做一个链接。

           一个短语被认为是候选的,如果它出现在搜索引擎的搜索日志里。

 


非监督学习方法:


基于图的排序:


比如TextRank算法,但是它不保证在提取出的短语里,包含了所有的主题。

但是由于它要对整篇文档构建一个图,所以很耗费资源。


基于主题聚类:


KeyCluster:


基于Wikipedia和co-occurrence-based statistics聚类,并假设聚出来的类对应文档的主题,在每个类里选取中心短语作为此篇文档的关键短语。

效果比TextRank好,但是它本质上给了每个主题相同的权重。


Topical PageRank(TPR):


使用LDA获得主题,在获得的主题集里,对每个主题运行一遍TextRank算法。最后每个候选词的得分,是这个候选词在每个主题里的得分,乘以该主题的权重(概率),的和。

效果比TextRank和tif*idf好。


CommunityCluster:


给重要的主题更多的权重,但是不像TPR,它保留重要主题的所有候选词。

在不损失准确率的情况下,召回率比TextRank和tf*idf还有Yahoo ! term extractor高。


即时学习:


构建三个图:word-word,sentence-word,sentence-sentence。


语言模型:


有两个特征项:phraseness和informativeness。

根据训练集,由KL距离计算候选词的权重并排序。

 

0 0
原创粉丝点击