超链分析和PageRank

来源：互联网发布：three.js 全景图编辑：程序博客网时间：2024/04/29 04:59

自己整理的一些资料

超链分析

超链分析的基本原理是:在某次搜索的所有结果中，被其他网页用超链指向得越多的网页，其价值就越高，就越应该在结果排序中排到前面。超链分析是一种引用投票机制，对于静态网页或者网站主页，它具有一定的合理性，因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量，超链分析的结果可以反映网页的重要程度，从而给用户提供更重要、更有价值的搜索结果。

可是搜索引擎，并不能真正理解网页上的内容，它只能机械地匹配网页上的文字。它收集了互联网上几千万到几十亿个网页并对网页中的每一个文字（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。使用超链分析技术，除要分析索引网页本身的文字，还要分析索引所有指向该网页的链接的URL、AnchorText，甚至链接周围的文字。

所以，有时候，即使某个网页A 中并没有某个词，比如“软件”，但如果有别的网页B 用链接“软件”指向这个网页A，那么用户搜索“软件”时也能找到网页A。而且，如果有越多网页（C、D、E、F……）用名为“软件”　　的链接指向这个网页A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那么网页A 在用户搜索“超链分析”时也会被认为相关度越高，排序也会越靠前。

超链分析是最近几年搜索引擎技术的研究重点，取得了很大的成功，百度等搜索引擎的技术基础，但是，从搜索引擎的基本功能来看，超链分析很可能是走入了一条错误的道路。搜索引擎的基本功能是从浩如烟海的网页信息中找到用户所想要寻找的信息，目前所有实用的搜索引擎技术都是以“关键字匹配”为最基础的原理的。

但是，超链分析本质上是针对一种公开的、通行的价值评估体系的。

当用户搜索的目的是寻找关于某些关键字的站点资源或网站入口时，它是有效的；但当用户搜索的目的是寻找关于某些内容的有效信息本身时，超链分析的结果不仅没有参考价值，而且会破坏用户搜索结果的精确度。

用户搜索关于某些内容的有效信息时，最大的特点时各异性，就是说，没有绝对意义上的“好”网页或“坏”网页，只有“有用的”网页和“无用的”网页。有用的网页是包含了用户搜索目的，能够提供给用户足够信息的网页，而无用的网页是与用户搜索目的不相关或不能够直接提供用户所需信息的网页。从普遍意义、通用意义上的价值来评估的搜索结果，对用户查找具体的资料和信息没有什么用处。某个被普遍引用网页从绝对意义上来说，可能是更有价值的，但对用户来说是无用的（例如各种门户和入口网页）；而某个很少被引用的关于某个具体问题的文章的网页，对于某个用户的搜索目的来说，可能是最佳的结果。

超链分析技术的应用结果，使得用户的搜索不是找到更符合自己需要的网页，而是找到那些最热门的网页。用户通过搜索寻找自己想要的信息的主动的过程，变成了接受一种根据某种标准排名次的网页的被动的过程。在超链分析的影响下，搜索引擎的发展从追求对用户寻找到最有用信息的技术研究，演变成为了各网站想尽办法追求网页排名的商业活动。从这个意义上来说，超链分析也许从商业上来说是有价值的，但从搜索引擎的基本用途来看，已经走入了歧途。

PageRank

网页排名，又称网页级别、佩奇排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google公司创办人Larry Page之姓来命名。此技术通常和搜索引擎优化（SEO）有关，Google用它来体现网页的相关性和重要性。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。PR通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他低等级页面的等级提升。

PR算法基于下面2个前提

前提1：一个网页被多次引用，则它可能是很重要的；一个网页虽然没有被多次引用，但是被重要的网页引用，则它也可能是很重要的；一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威（Authoritive）网页。

前提2：假定用户一开始随机的访问网页集合中的一个网页，以后跟随网页的向外链接向前浏览网页，不回退浏览，浏览下一个网页的概率就是被浏览网页的PR值PR让链接来"投票"。

一个页面的“得票数”由所有链向它的页面的重要性来决定，到一个页面的超链接相当于对该页投一票。一个页面的PR是由所有链向它的页面（“链入页面”）的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。

2005年初，Google为网页链接推出一项新属性nofollow，使得网站管理网和网志作者可以做出一些Google不计票的链接，也就是说这些链接不算作"投票"。nofollow的设置可以抵制评论垃圾。

PageRank算法

假设一个由4个页面组成的小团体：A，B，C和D。如果所有页面都链向A，那么A的PR值将是B，C及D的和。

PR(A)=PR(B)+PR(C)+PR(D)

继续假设B也有链接到C，并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑，D投出的票只有三分之一算到了A的PR上。

换句话说，根据链出总数平分一个页面的PR值。

最后，所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”的PR会是0，所以，Google通过数学系统给了每个页面一个最小值：(1-d)/N

所以一个页面的PR是由其他页面的PR计算得到。Google不断的重复计算每个页面的PR。如果给每个页面一个随机PR值（非0），那么经过不断的重复计算，这些页面的PR值会趋向于正常和稳定。这就是搜索引擎使用它的原因。

这个引入了随机浏览的概念，即有人上网无聊随机打开一些页面，点一些链接。一个页面的PR值也影响了它被随机浏览的概率。为了便于理解，这里假设上网者不断点网页上的链接，最终到了一个没有任何链出页面的网页，这时候上网者会随机到另外的网页开始浏览。为了处理那些“没有向外链接的页面”（这些页面就像“黑洞”会吞噬掉用户继续向下浏览的概率）带来的问题，d=0.85（这里的d被称为阻尼系数（damping factor），其意义是，在任意时刻，用户到达某页面后并继续向后浏览的概率。1-d=0.15就是用户停止点击，随机跳到新URL的概率）的算法被用到了所有页面上，估算页面可能被上网者放入书签的概率。

所以，这个等式如下：

P1--PN是被研究的页面，M(Pi)是链入Pi页面的集合，L(Pj)是Pj链出页面的数量，而N是所有页面的数量。

其实我觉得两者之间没有太大的区别.....

HillTop算法

其实HillTop算法的指导思想和PageRank的是一致的，都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的，有10个链接都是从“服装”相关的网站链接过来，那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档，从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中， HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。

HillTop算法的指导思想和PageRank是一致的，即都通过反相链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。在1999与2000年，当这个算法被Bharat与其他Google开发人员开发出来的时候，他们称这种对主题有影响的文档为“专家”文档，而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中：HillTop算法就显得非常的重要了。