链接分析算法之PageRank、HITS

来源:互联网 发布:ticwatch卸载软件 编辑:程序博客网 时间:2024/04/26 10:52

http://blog.sina.com.cn/s/blog_a46817ff0101dm5u.html

1.PageRank算法

  PageRank算法是由Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法.它的主要思想是对所有网页根据PageRank值(范围为0-10)进行排序。

   网页PageRank的计算基于以下两个基本假设:

          1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

          2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。
    

  优点

        是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

  缺点:

       1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低,也就是说你无论搜索什么样的主题,得到的结果都是一样的。

       2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

   鉴于PageRanke忽略了主题相关性的原因,在PageRank的基础上提出了敏感主题PageRank

   基本思想:

          通过离线计算出与某一主题相关的PageRank向量集合,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定.

  计算流程:

          1.确定topic分类,RangRank定义了16个大的主题类别,包括体育、商业、科技等。

          2.网页topic归属,这一步需要将每个页面归于最合适的分类,具体算法有很多。

          3.分topic向量计算,目的是算出每个topic的Rank值

          4.在线相似度计算,这一步就是在用户提交搜索时,确定用户的topic倾向,以选择合适的rank向量,主要有两种方法。一种是列出所有topic让用户自己选择,这种方法在一些社交问答网站注册时经常使用;

另外一种方法利用“用户查询分类器”对查询进行分类,跟踪用户的行为,进行数据分析判断出用户的倾向.

  作用:利用主题敏感PageRanK构造个性化搜索

 

2.HITS算法

    HITS算法是由Cornell University的JonKleinberg博士于1997年首先提出的,为IBM公司阿尔马登研究中心名为"CLEVER"的研究项目中的一部分。目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。

     HITS有两个重要概念:

           1.Hub页面:指包含了很多指向高质量“Authority”页面的链接网页,比如Hao123

           2.Authority页面:指某个领域或者某个话题相关的高质量网页,比如百度

    基本思想:相互增强性关系

           假设1:一个好的“Authority”页面会被很多好的"Hub"页面指向

           假设2:一个好的“Hub”页面会指向很多好的“Authority”页面

    步骤:1.选择要集合,从关键字查询的结果页面集合中取出前n个网页(n一般较小)

          2.扩展集合base,在root集合的基础上,只要跟root集合有指向关系的都加入base集合中

          3.算出base集合中每个页面的Hub值和Authority值(多次迭代,直到稳定)

          4.输出结果,将页面根据Authority权值得分由高到低排序,取权值高的若干页面作为响应用户查询的搜索结果输出。

    缺点:1.计算效率低,因为HITS算法是与查询有关的算法,所以必须接收到用户查询后实时的进行计算。

          2.主题漂移问题,会在base集合中包含部分与查询主题无关的页面,而且他们的Authoriyt值较高

          3.易被作弊者操纵结果,比如可以建立一个页面,页面增加指向高质量网页的网址,这样它就可以得到很高的Authority得分。’

          4.结构不稳定,如果base集合中添加删除个别网页或改变少数链接关系,刚HIST算法的排名就会有非常大的改变。

0 0