程序博客网 > c语言strlen

（6）数据挖掘算法之PageRank

来源：互联网发布：c语言strlen 编辑：程序博客网时间：2024/05/01 21:39

我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇，是因为本人是Google脑残粉。因了PageRank而Google得以成立，因了Google而这个世界变得好了那么一点点。

1. 引言

PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的，用来解决链接分析中网页排名的问题。在衡量一个网页的排名，直觉告诉我们：

当一个网页被更多网页所链接时，其排名会越靠前；
排名高的网页应具有更大的表决权，即当一个网页被排名高的网页所链接时，其重要性也应对应提高。

对于这两个直觉，PageRank算法所建立的模型非常简单：一个网页的排名等于所有链接到该网页的网页的加权排名之和：

表示第

个网页的PageRank值，用以衡量每一个网页的排名；若排名越高，则其PageRank值越大。网页之间的链接关系可以表示成一个有向图

，边

代表了网页

链接到了网页

；

为网页

的出度，也可看作网页

的外链数（ the number of out-links）。

假定

为n维PageRank值向量，

为有向图

所对应的转移矩阵，

个等式

可改写为矩阵相乘：

但是，为了获得某个网页的排名，而需要知道其他网页的排名，这不就等同于“是先有鸡还是先有蛋”的问题了么？幸运的是，PageRank采用power iteration方法破解了这个问题怪圈。欲知详情，请看下节分解。

2. 求解

为了对上述及以下求解过程有个直观的了解，我们先来看一个例子，网页链接关系图如下图所示：

那么，矩阵

即为

所谓power iteration，是指先给定一个

的初始值

，然后通过多轮迭代求解:

最后收敛于

，即差别小于某个阈值。我们发现式子

为一个特征方程（characteristic equation），并且解

是当特征值（eigenvalue）为

时的特征向量（eigenvector）。为了满足

是有解的，则矩阵

应满足如下三个性质：

stochastic matrix，则行至少存在一个非零值，即必须存在一个外链接（没有外链接的网页被称为dangling pages）；
不可约（irreducible），即矩阵

所对应的有向图

必须是强连通的，对于任意两个节点

，存在一个从

到

的路径；
非周期性（aperiodic），即每个节点存在自回路。

显然，一般情况下矩阵

这三个性质均不满足。为了满足性质stochastic matrix，可以把全为0的行替换为

，其中

为单位向量；同时为了满足性质不可约、非周期，需要做平滑处理：

其中，

为 damping factor，常置为0与1之间的一个常数；

为单位阵。那么，式子

被改写为

3. 参考资料

[1] Bing Liu and Philip S. Yu, "The Top Ten Algorithms in Data Mining" Chapter 6.

阅读全文

0 0

c语言strlen

c语言strlen

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子青少年气胸如何自愈胃气上逆能自愈吗小肠气会自愈吗过度换气症能自愈吗嗓子有异物感有点憋气的感觉了不起的修仙模拟器气感气钉抢多钱气了喛气气气气什么什么气什么是气肚子有气排不出妙招肚子里有气怎么排出来胃里有气怎么排出来排空气集气法气排胃疼感觉有气排不出怎样快速排肠子里的气排空驭气奔如电肚子有股气排不出是怎么回事肠胃有气怎样能排出来肚子有气怎么排出来感觉肚子有气排不出来怎么办如何排肚子里的气肚子里面有气排不出来怎么办肚子有气怎么排肚里有气排不出来怎么办肚子里有气怎么排出去气排钉厂家怎么排肚子里的气气排钉生产厂家不排气排钉设备 u型气排钉生闷气怎么把气排出来感觉肚子里有气排不出来立刻把肚子的气排出来榻榻米气撑橱柜气撑