google怎么做(2.相似网页算法)

来源:互联网 发布:python 神经网络 预言 编辑:程序博客网 时间:2024/04/29 18:27

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

GOOGLE 相似网页功能算法

 

中科院软件所 张俊林

 time stamp:         2006年4月3日

 

我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?

GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用链接分析来提供相关网页的功能,其基本思路是:如果一个页面和另外一个页面相似,那么其链接关系也是相似的.其算法如下:

(1)   用户选定某个页面A,希望查看相关网页;

(2)   首先根据页面链接关系构建两个页面集合,第一个页面集合是有外向链接(out link)指向页面A的所有互联网页面,我们假设这个集合包含两个网页{B,C},也就是说BC页面都有链接指向页面A,同时我们假定B有链接指向D页面,C有链接指向E页面;

(3)   第二个页面集合是第一个页面集合里面的页面外向链接指向的所有页面;上面的例子就是集合{D,E};

(4)   第一个页面集合指向第二个页面集合的每个链接都赋予一个权重值,权重的设定有不同的方法,基本原则是如果是同一个网站的不同页面的链接,那么链接权重要降低.

(5)   第二个页面集合的页面根据指向自己的链接的权重值之和来确定页面分值,按照分值大小顺序排序输出

 

看起来比较繁琐,实际上基本想法很简单,一句话概况就是:谁的链接指向我?那么这些指向我的页面还指向谁?