TextRank
来源:互联网 发布:乐高幻影忍者淘宝 编辑:程序博客网 时间:2024/05/17 07:22
TextRank是一种求自动摘要(句子级的pagerank)和关键词(词语级的pagerank)的主要方法之一。下面我就来说说textrank的来源以及算法
TextRank来源于Pagerank, Pagerank是一种网页排名在1998年由谷歌larry Page它的名字命名由来。主要思想就是有权重网页所链接到的网页权重越高,以这样的方式判别网页的重要程度防止垃圾网站作弊行为。确切来说:如果某个网站A有指向B的超链接,说明A网站认为B网站是有价值的,于是相应的我们可以给B来提升权重,但是就像现实中,一般人的意见和专家的意见的权重是不一样的,所以如果网站A的权重比较高,那么就可以贡献更多的权重给B,反之则贡献更少的权重,然后算法经过一轮轮的迭代,所有结点的权重会收敛,就得到了最终的权重了。Pageranke公式如下:
下面一个例子来自百度百科:假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。
继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
换句话说,根据链出总数平分一个页面的PR值。
最后,所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”传递出去的PageRank会是0,所以,Google通过数学系统给了每个页面一个最小值:
说明:在Sergey Brin和Lawrence Page的1998年原文中给每一个页面设定的最小值是1-d,而不是这里的(1-d)/N。 所以一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。这就是搜索引擎使用它的原因。
说明完pagerank,同样在计算关键词或者关键句(自动摘要)也是一个原理,下面重点说关键词的提取。最初应用到text文本上的是2004年来自北德克萨斯州大学的论文TextRank: Bringing Order into Texts。他在Pagerank 上提出了修订公式,这里的投票窗口N=1,即只给左右相邻的词汇投票。同时,可以挑选出名词或者形容词投票。
http://www.tuicool.com/articles/rMZfey 0 0
- TextRank
- TextRank
- TextRank学习心得
- TextRank简介
- TextRank算法
- TextRank算法
- textRank杂谈
- TextRank算法
- PageRank算法 到 textRank
- tf-idf, CHI, TextRank
- pagerank和textrank
- TextRank算法总结
- textrank关键词提取
- textrank提取文档关键词
- PangRank算法到TextRank
- TextRank算法抽取关键词
- TextRank 自动文摘
- TextRank Spark 实现
- Html5 手机wap开发、微信开发、APP开发的优缺点-创业者必知
- sobel边缘检测
- 探索新的android6.0权限模型
- android屏幕适配建议
- Android zip文件压缩解压缩
- TextRank
- 数据结构(C语言版)全程更新第二篇震撼来袭
- SLAM: Ubuntu14.04_Kylin安装ROS-Indigo
- Android_Widget桌面小控件
- java实现html转pdf功能
- 预防XSS攻击,(参数/响应值)特殊字符过滤
- 权限大全
- OC学习 第三节
- fopen()使用注意