TextRank 提取关键字、提取关键短语、提取摘要
来源:互联网 发布:二叉树的反转Java 编辑:程序博客网 时间:2024/05/23 19:16
使用TextRank提取关键字
将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。
每个单词作为pagerank中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:
w1, w2, w3, w4, w5, ..., wn
w1,w2, ..., wk、w2, w3, ...,wk+1、w3, w4, ...,wk+2等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。
基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。
使用TextRank提取关键短语
参照“使用TextRank提取关键词”提取出若干关键词。若原文本中存在若干个关键词相邻的情况,那么这些关键词可以构成一个关键短语。
例如,在一篇介绍“支持向量机”的文章中,可以找到三个关键词支持、向量、机,通过关键短语提取,可以得到支持向量机。
使用TextRank提取摘要
将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。
通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。
论文中使用下面的公式计算两个句子Si和Sj的相似度:
分子是在两个句子中都出现的单词的数量。|Si|是句子i的单词数。
由于是有权图,PageRank公式略做修改:
实现TextRank
因为要用测试多种情况,所以自己实现了一个基于Python 2.7的TextRank针对中文文本的库TextRank4ZH。位于:
https://github.com/someus/TextRank4ZH
0 0
- TextRank 提取关键字、提取关键短语、提取摘要
- 基于TextRank的关键词、短语、摘要提取
- 基于TextRank的关键词、短语、摘要提取
- 自动摘要提取python,textrank
- 提取关键短语tutorial笔记
- textrank算法原理与提取关键词、自动提取摘要PYTHON
- 使用TextRank实现的关键字提取
- textrank关键词提取
- textrank提取文档关键词
- 关键词提取算法-TextRank
- 摘要提取
- Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
- Textrank权值提取文本标签提取
- hannlp 字段短语提取
- 关键词提取之TextRank算法
- 笔记-TextRank与关键词提取
- textrank 关键词提取-python实现
- 提取
- App优化之ANR详解
- PowerManagerService 关于WackLock 休眠过程
- __block
- redhat6.0 安装G++
- Swift学习记录 - Alamofire 4.0.1网络库基本使用(持续更新...)
- TextRank 提取关键字、提取关键短语、提取摘要
- Ubuntu 中创建SWAP交换分区文件
- Servlet3.0中Servlet的使用
- RelativeLayout
- Android是如何管理App内存的--Android内存优化第二弹
- 一道面试题
- 关于理解middlebury提供的立体匹配代码后的精减
- android SQLite 数据存储
- 数据结构实验之图论八:欧拉回路