数据挖掘十大算法翻译——6PageRank

来源:互联网 发布:淘宝如何手动上传 编辑:程序博客网 时间:2024/05/16 02:41

1 总览

PageRank是由Sergey Brin和Larry Page在1998年4月的第七届国际全球广域网会议(WWW7)中提出的。它是一个使用超链接的搜索排序算法。基于这个算法,他们穿在了Google搜素引擎,并且取得了巨大的成功。现在,每个搜索引擎都有自己的基于超链接的排序算法。

PageRank产生一个网页的静态排行,也就是说PageRank离线的计算每个页面,并且不依赖于查询。通过使用大量的链接结构作为单个页面的衡量标准,这个算法利用了Web的民主特性。PageRank的精髓就是通过把从x页面到Y页面的一个链接,作为x页面给y页面的投票。然而,PageRank不仅仅只是单纯的统计票数,或者一个页面收到的链接数。它也分析透出票的页面。如果投出票的页面本身是重要的,那么它会使得它投票的对象也是重要的。这就是在社交网络中的“rank prestige(威望等阶)”的思想。

2 算法

现在我们介绍PageRank公式。首先我们先成熟一些Web页面的额内容。
页面i的入链接(in-link):从其他页面指向页面i的超链接。通常而言,从同一个站点的链接不被考虑。
页面i的出链接(out-link):从页面i指向其他页面的超级链接。一般而言,不考虑同一个站点的链接。
下面这些基于rank prestige[86]的思想可以用来驱动PageRank算法:
1. 从一个页面指向另一个页面的超链接是一种暗含的权威的转移。因此,页面i收到的in-link越多,页面i的prestige(威望)就越高
2. 指向页面i的页面也有他们自己的威望分数。拥有较高威望的页面的投票比拥有较少威望的页面的投票更重要。简而言之,被重要的页面指向的页面也是重要的。
根据社交网络中的威望等级,页面i的重要性(这里是i的PageRank分数)是由所有指向i的页面所决定的。因为一个页面可能指向其他的很多页面,它的“威望”应够由它指向的页面来共享。
为了使用公式表达这个思想,我们把Web作为一个有向图G=(V,E)这里的V是顶点,也就是所有页面的集合。E是图的有向边,也就是所有超链接。这里让所有页面的总数设为n(n=|V|)第i个页面的PageRank分数由下面的式子定义。

P(i)=(j,i)EP(j)Oj

这里的Oj是页面j的out-link的数量。数学上而言,我们有n个含有n个线性方程的未知数。我们可以用一个矩阵来代表所有的等式。设P是PageRank值的n维列限量,有如下表示:
P=(P(1),P(2),…,P(n))T
设A是我们的图的邻接矩阵
Aij={1/Oi,0,if(i,j)Eotherwise

我们把n个等式的系统写作
P=ATP
(3)
这是特征系统的特征值方程,这里的解P是特征值为1的特征向量。由于这是一个循环的定义,我们使用一个迭代的算法来解决它。事实证明,如果条件满足,1
是最大的特征值,并且PageRank向量P是主特征向量;
这里写图片描述
Power iteration(幂迭代)[30]是一个用来找到P的有名的数学方法。
然而问题在于由于Web图不满足条件,等式(3)是不重复的。事实上等式(3)也可以由Markov chain(马尔科夫链)得到。然后从马尔科夫链中得到的一些理论就可以被使用。在扩张Web图使得它满足条件之后,下面的等式就产生了:
P=(1d)e+dATP

这里的e是所有1’s的列向量。这样,我们得到了每个页面i的PageRank公式:
P(i)=(1d)+dj=1nAjiP(j)

这是公式等加油在原始的PageRank论文中给出的公式:
P(i)=(1d)+d(j,i)EP(j)Oj

参数d被称为damping factor(尼阻因素),它的值介于0和1之间,在论文[10,52]使用的中d=0.85。
可以使用幂迭代的方法来计算PageRank的值,这样会得到特征值为1的特征向量。这个算法非常简单,可以从Fig4 表4中看到。我们可以从任何的指定的PageRank的初始值开始。如果结果变动不多,那么迭代就救赎。在Fig4中,如果1-残余向量的范式小于预定的阈值e那么迭代就结束。
由于在Web搜索中,我们感兴趣的是网页的排名,所以这个算法最终是否收敛我们是不关心的。这样就可以使用更少的迭代。在[10]中,一个拥有322百万,3.22亿链接的数据库,经过了52次迭代就达到了可以接受的效果。

3 PageRank的未来

自从在论文[10,61]中提出了PageRank算法,研究者就可以提出了很多的加强的模型,和替代模型,用于提高他的计算,增加暂时的维度[91]。Liu,Langville和Meyer的书中包括了一些PageRank的升读分析和其他几个基于链接的算法。

0 0
原创粉丝点击