提取关键短语tutorial笔记

来源：互联网发布：阿里云别名解析编辑：程序博客网时间：2024/06/04 18:52

这是《AutomaticKeyphrase Extraction:A Survey of the State of th Art》一文的笔记。

影响短语提取的四个要素

1. 短语的长度

2. 文档结构的一致性

3. 文章主题的变化性

4. 短语之间主题的关联性

短语提取方法

短语提取的步骤：

1. 提取出候选词语

2. 使用（非）监督学习方法进行筛选

选择候选词语：

1. 去除停用词

2. 词性标注

3. 使用n-gram选择候选词

4. 筛选掉不符合lexico-syntactic模式的短语

监督学习方法：

1. 任务重构（task reformulation）

2. 特征设计（feature design）

任务重构：

把问题重铸（recast）为二元分类问题：是否是候选词。

特征：

Within-Collection特征:

1. tf*idf

2. 短语距离（这个词语与它第一次出现的位置的距离）

3. 监督式短语（在训练集里这个词语作为关键短语的次数）

4. 短语的长度和扩展性（这个词语第一次出现的位置和最后出现的位置之间有多少个word）

结构性特征：

短语在文档里所属的部分（摘要、正文、结尾等）。经验表明这个特征对于关键短语提取是有用的。

句法特征：

词性序列、后缀序列等。经验表明这个特征对于关键短语提取是无用的。

外部机遇资源的特征（External Resource-Based Features）：

例如：一个短语被认为是候选的，如果它经常在Wikipedia里被当做一个链接。

一个短语被认为是候选的，如果它出现在搜索引擎的搜索日志里。

非监督学习方法：

基于图的排序：

比如TextRank算法，但是它不保证在提取出的短语里，包含了所有的主题。

但是由于它要对整篇文档构建一个图，所以很耗费资源。

基于主题聚类：

KeyCluster:

基于Wikipedia和co-occurrence-based statistics聚类，并假设聚出来的类对应文档的主题，在每个类里选取中心短语作为此篇文档的关键短语。

效果比TextRank好，但是它本质上给了每个主题相同的权重。

Topical PageRank(TPR)：

使用LDA获得主题，在获得的主题集里，对每个主题运行一遍TextRank算法。最后每个候选词的得分，是这个候选词在每个主题里的得分，乘以该主题的权重（概率），的和。

效果比TextRank和tif*idf好。

CommunityCluster:

给重要的主题更多的权重，但是不像TPR，它保留重要主题的所有候选词。

在不损失准确率的情况下，召回率比TextRank和tf*idf还有Yahoo ! term extractor高。

即时学习：

构建三个图：word-word，sentence-word，sentence-sentence。

语言模型：

有两个特征项：phraseness和informativeness。

根据训练集，由KL距离计算候选词的权重并排序。

0 0