TextRank

来源:互联网 发布:乐高幻影忍者淘宝 编辑:程序博客网 时间:2024/05/17 07:22

TextRank是一种求自动摘要(句子级的pagerank)和关键词(词语级的pagerank)的主要方法之一。下面我就来说说textrank的来源以及算法

TextRank来源于Pagerank, Pagerank是一种网页排名在1998年由谷歌larry Page它的名字命名由来。主要思想就是有权重网页所链接到的网页权重越高,以这样的方式判别网页的重要程度防止垃圾网站作弊行为。确切来说:如果某个网站A有指向B的超链接,说明A网站认为B网站是有价值的,于是相应的我们可以给B来提升权重,但是就像现实中,一般人的意见和专家的意见的权重是不一样的,所以如果网站A的权重比较高,那么就可以贡献更多的权重给B,反之则贡献更少的权重,然后算法经过一轮轮的迭代,所有结点的权重会收敛,就得到了最终的权重了。Pageranke公式如下:

下面一个例子来自百度百科:假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。

继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
    换句话说,根据链出总数平分一个页面的PR值。
      最后,所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”传递出去的PageRank会是0,所以,Google通过数学系统给了每个页面一个最小值:
        说明:在Sergey Brin和Lawrence Page的1998年原文中给每一个页面设定的最小值是1-d,而不是这里的(1-d)/N。 所以一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于稳定,也就是收敛的状态。这就是搜索引擎使用它的原因。
            说明完pagerank,同样在计算关键词或者关键句(自动摘要)也是一个原理,下面重点说关键词的提取。最初应用到text文本上的是2004年来自北德克萨斯州大学的论文TextRank: Bringing Order into Texts。他在Pagerank 上提出了修订公式,这里的投票窗口N=1,即只给左右相邻的词汇投票。同时,可以挑选出名词或者形容词投票。
        http://www.tuicool.com/articles/rMZfey

        0 0
        原创粉丝点击