Web关键资源发现中的链接分析技术

来源:互联网 发布:seo,sem 编辑:程序博客网 时间:2024/05/03 23:06

 随着互联网的信息组织趋向专业化以及WEB信息的爆炸性增长,如何从信息海洋中获取所需信息,已经成为WEB信息应用的关键问题,当前以GOOGLE搜索引擎为代表的通用性信息检索服务,大大提高了用户在Internet上获取信息的速度。然而,在通用搜索引擎返回的众多结果中,并非所有的结果页面都是用户真正所需要的。为了返回更相关的结果,2002年的TRECText Retrieval Conference)会议中的WEB检索任务中定义了主题信息抽取(Topic Distillation)子任务。在这个子任务中,它要求返回的结果对于给定的查询而言是一个关键资源,而不是通常网页检索得到的结果页面。TREC要求的关键资源主要包括两类页面:一类是关键资源是和查询高度相关的页面;另一类关键资源包括的是这样一种情况:如果来自同一个站点的多个页面,都和主题高度相关,那么要将指向这些页面的那个页面作为关键资源提交给用户;关键资源提取目标,即为找到入口点的页面。

      目前利用链接分析对WEB页面性质的研究做得比较好的有两家,一家是GOOGLE采用的方式;一家是IBM的算法。在GOOGLE的算法中,他们假设WEB上有一个随机的浏览者,这个随机的浏览者从一个任意给定的页面出发,按照页面上的链接前进,在每一个页面,浏览者都有可能不再对本页的面的链接感兴趣,从而随机选择一个新的页面开始新的浏览,PageRank是他访问到页面A的概率,GOOGEL全局地为每个页面计算一个PageRank值,作为页面的质量评分。在IBMCLEVER系统中的HITS算法中,认为WEB页面都有被指向,作为权威(Authority)和指向其它页面作为资源中心(Hub)的两个方面的属性, Authority是重要的信息资源,Hub是指向信息资源的中心点。

原创粉丝点击