中文搜索引擎技术揭密:排序技术(五)

来源:互联网 发布:淘宝护角条亚克力材质 编辑:程序博客网 时间:2024/06/08 11:30

来源:e800.com.cn


排序技术的发展趋势

各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。专业人士认为,目前的搜索引擎排序算法上还存在两大不足。

一、没有真正解决相关性。

相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎做弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉登的一些破坏行动,文中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。

二、搜索结果的单一化。

在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。国外vivisimo公司( http://www.vivisimo.com/)就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性化,vivisimo已经迈出了一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。

搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展:语意相关性和排序个性化。前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算,要达到其中任何一个的要求均非易事,如何解决这些难题,任务落在了科学家和工程师们的肩上,哪个搜索引擎解决了这些问题,她可能会称为下一个搜索世界的霸主。

更多参考

说明 :由于以下参考文献不是以论文的形式发表在某些杂志上,故没有表面出处,大家可以在Google或者Baidu搜索引擎上通过搜索文章标题得到相关文章的下载链接。
[1] 中文搜索引擎技术揭密:中文分词 。
[2] 中文搜索引擎技术揭密:网络蜘蛛。
[3] 中文搜索引擎技术揭密:系统架构。
[4] Robots & Spiders & Crawlers: How web and intranet search engines follow links to build indexes. Author: Avi Rapports.2001.
[5] Guidelines for Robot Writers. Author: Martijn Koster, 1993.

原创粉丝点击