自学数据挖掘十大算法之PageRank

来源:互联网 发布:北大青鸟网络课程介绍 编辑:程序博客网 时间:2024/05/16 10:13

PageRank是Google用来衡量一个网站好坏的唯一标准,Google将其分为0—10级,一般PR值达到4,该网站已经很不错了,Google将自己的网站等级定为10。对于某个互联网网页A来说,该网页的PageRank值的计算基于两个假设:

  •  数量假设

在Web图模型中,如果一个页面节点接收到的其他网页的入链数量越多那么这个网页越重要。

  •  质量假设

指向页面A的入链质量不同,质量高的页面会通过链接向其他的页面传递更多的权重,所以越是质量高的页面指向A,则页面就变得越重要。

PageRank算法与网页主题无关,即与用户输入的查询无关。

PageRank是基于从许多优质的网页链接过来的网页必定还是优质的网页的回归关系,来判定所有网页的重要性。

链入链接数:单纯意义上受欢迎程度指标

链入链接:是否来自推荐度高的页面(质量高的页面),也是有根据的受欢迎指标

链入链接源页面的链接数:被选中点击进入浏览的几率指标

PR(A)=PR(B)+PR(C)+PR(D)

建立简化模型:


对于任意网页Pi它的PR值为如下,其中Bi为所有链接到网页i的网页集合,Lj为网页j的对外链接数(出度)。


PRi:网页i的PageRank值

PRj:网页j的PageRank值

Lj:网页j的链出链接数

Bi:链接到网页i的网页集合

PageRank算法面临的两个问题:

Rank Leak,一个独立的网页如果没有外出的链接就会产生等级泄露

Rank Sink,整个网页图中的一组紧密链连成环的网页如果没有外出的链接就会产生rank sink

上网者以随机的方式访问一个新网页的概率就等于这个网页的PageRank值,公式如下:

N:网络中网页总数

d:阻尼因子,通常取0.85,d即按照超链接进行浏览的概率

1-   d:随机跳转一个新网页的概率

PR(Pi):网页Pi的PR值

L(Pj):Pj的链出网页数目


等式PR=A*PR满足马尔可夫链的性质,如果马尔可夫链收敛,则PR值存在唯一解,通过迭代计算得到的所有节点的PageRank值,那么经过不断地重复计算,这些页面的PR值会趋于正常和稳定。

时间关系,本文写的非常简单,对于PageRank的深入探讨请点击:http://blog.csdn.net/monkey_d_meng/article/details/6556295

参考:

http://blog.csdn.net/hguisu/article/details/7996185

http://zh.wikipedia.org/wiki/PageRank

http://blog.csdn.net/aladdina/article/details/4141120

0 0