Web关键资源发现中的链接分析技术
来源:互联网 发布:seo,sem 编辑:程序博客网 时间:2024/05/03 23:06
随着互联网的信息组织趋向专业化以及WEB信息的爆炸性增长,如何从信息海洋中获取所需信息,已经成为WEB信息应用的关键问题,当前以GOOGLE搜索引擎为代表的通用性信息检索服务,大大提高了用户在Internet上获取信息的速度。然而,在通用搜索引擎返回的众多结果中,并非所有的结果页面都是用户真正所需要的。为了返回更相关的结果,2002年的TREC(Text Retrieval Conference)会议中的WEB检索任务中定义了主题信息抽取(Topic Distillation)子任务。在这个子任务中,它要求返回的结果对于给定的查询而言是一个关键资源,而不是通常网页检索得到的结果页面。TREC要求的关键资源主要包括两类页面:一类是关键资源是和查询高度相关的页面;另一类关键资源包括的是这样一种情况:如果来自同一个站点的多个页面,都和主题高度相关,那么要将指向这些页面的那个页面作为关键资源提交给用户;关键资源提取目标,即为找到入口点的页面。
目前利用链接分析对WEB页面性质的研究做得比较好的有两家,一家是GOOGLE采用的方式;一家是IBM的算法。在GOOGLE的算法中,他们假设WEB上有一个随机的浏览者,这个随机的浏览者从一个任意给定的页面出发,按照页面上的链接前进,在每一个页面,浏览者都有可能不再对本页的面的链接感兴趣,从而随机选择一个新的页面开始新的浏览,PageRank是他访问到页面A的概率,GOOGEL全局地为每个页面计算一个PageRank值,作为页面的质量评分。在IBM的CLEVER系统中的HITS算法中,认为WEB页面都有被指向,作为权威(Authority)和指向其它页面作为资源中心(Hub)的两个方面的属性, ,Authority是重要的信息资源,Hub是指向信息资源的中心点。
- Web关键资源发现中的链接分析技术
- 趣发现 资源页面请求链接分析
- WEB技术架构的资源链接。
- 技术资源链接
- web开发资源链接
- 拉伸关键维度,发现设计中的不足
- 直播技术关键实现分析
- Web服务发现技术综述
- 关于链接中的堆排序算法,如果认真分析的话,会发现问题
- 移动IPv6关键路由技术分析
- 发现一个学习web技术的网站
- web sercies相关技术资源
- Web开发技术资源收藏
- 直播中的关键帧技术探秘
- Android中的资源分析
- Android中的资源分析
- 搜索引擎重复网页发现技术分析
- 搜索引擎重复网页发现技术分析
- 一些ASP编程常用的代码[转载]
- MSXML 嗅探器
- “指定的Web服务器运行的不是ASP.NET1.1版”解决办法(总结)
- XML及其技术指南
- 一个研究生毕业以后的人生规划(转自天涯虚拟社区)
- Web关键资源发现中的链接分析技术
- 用sun公司的NetBeans开发J2ME程序
- 令人向往的3000年生活
- 接口的无敌解释!
- D3D学习笔记(我的第一个D3D程序)
- 关于委托的精彩解说
- 今天看了王江民的采访
- 判断是否有文件存在
- 真正的黑客有自己的道德【转】