Web关键资源发现中的链接分析技术

来源：互联网发布：seo,sem 编辑：程序博客网时间：2024/05/03 23:06

随着互联网的信息组织趋向专业化以及WEB信息的爆炸性增长，如何从信息海洋中获取所需信息，已经成为WEB信息应用的关键问题，当前以GOOGLE搜索引擎为代表的通用性信息检索服务，大大提高了用户在Internet上获取信息的速度。然而，在通用搜索引擎返回的众多结果中，并非所有的结果页面都是用户真正所需要的。为了返回更相关的结果，2002年的TREC（Text Retrieval Conference）会议中的WEB检索任务中定义了主题信息抽取（Topic Distillation）子任务。在这个子任务中，它要求返回的结果对于给定的查询而言是一个关键资源，而不是通常网页检索得到的结果页面。TREC要求的关键资源主要包括两类页面：一类是关键资源是和查询高度相关的页面；另一类关键资源包括的是这样一种情况：如果来自同一个站点的多个页面，都和主题高度相关，那么要将指向这些页面的那个页面作为关键资源提交给用户；关键资源提取目标，即为找到入口点的页面。

目前利用链接分析对WEB页面性质的研究做得比较好的有两家，一家是GOOGLE采用的方式；一家是IBM的算法。在GOOGLE的算法中，他们假设WEB上有一个随机的浏览者，这个随机的浏览者从一个任意给定的页面出发，按照页面上的链接前进，在每一个页面，浏览者都有可能不再对本页的面的链接感兴趣，从而随机选择一个新的页面开始新的浏览，PageRank是他访问到页面A的概率，GOOGEL全局地为每个页面计算一个PageRank值，作为页面的质量评分。在IBM的CLEVER系统中的HITS算法中，认为WEB页面都有被指向，作为权威（Authority）和指向其它页面作为资源中心（Hub）的两个方面的属性, ，Authority是重要的信息资源，Hub是指向信息资源的中心点。