搜索引擎检索效率与垃圾信息(张炜)

来源：互联网发布：今目标软件怎么样编辑：程序博客网时间：2024/04/25 20:19

搜索引擎检索效率与垃圾信息

学号：0107390143 姓名：张炜

摘要：现在的互联网上，信息的数量是以惊人的速度递增的，搜索引擎对于用户的信息检索就十分重要。然而，由于用户本身搜索技术的缺陷、搜索引擎设计思路的局限、网站维护的相对孱弱等等原因，搜索引擎的效率，即在：查全率，查准率，重复率，死链比率等方面的表现还不尽如人意，大量无用的垃圾信息给用户代来了很大的不便。本文主要讨论如何减少垃圾信息的搜索的问题。

关键字：搜索引擎，检索，垃圾信息

原文: http://blog.csdn.net/zhangweisjz/archive/2005/03/11/317603.aspx

·1搜索引擎的工作原理

搜索引擎的原理起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的排序文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序的结果。

互联网搜索引擎除了需要有全文检索系统之外，还要能够从互联网上自动收集网页数据；此外，还需要有数据库建立系统及提供信息检索的其他辅助系统。实际上搜索引擎由多个子系统组成，主要子系统有三个：信息收集子系统、索引子系统和检索子系统。信息收集子系统负责从信息资源站点提供的资源中收集索引信息，如关键词，作者，标题等；索引子系统负责分类、组织收集到的索引信息、去掉重复的信息并存储到搜索引擎的数据库中；检索子系统提供一个用户检索接口并根据用户要求检索出相关信息提交给用户。

　　·2搜索引擎的几种常见类型

Internet上最早出现的搜索引擎是基于Robot的搜索引擎，它利用一个称为Robot的程序自动访问Web站点，提取站点上的网页，并根据网页中的

链接进一步提取其它网页；或转移到其它站点上。Robot搜集的网页被加入到搜索引擎的数据库中，供用户查询使用。“搜索引擎”这个词的原义也只是

指狭义上的基于Robot的搜索引擎。此外，还有目录式搜索引擎及近期出现的meta搜索引擎等类型。目录式搜索引擎的数据库是依靠专职编辑建立

起来的，Meta搜索引擎本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其它搜索引擎能够接受的命令格式，并

行地访问多个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。在查询过程中，它们与基于Robot的搜索引擎具有共同点，都通过全文检索完成用户的查询请求。

·3垃圾信息的定义

对于用户来说，在使用搜索引擎的时候，搜到垃圾信息是一件非常头疼的事，即浪费了时间，更影响了正确信息的获取。具体的说垃圾信息是什么呢？

不同搜索引擎对垃圾邮件的定义也有一定差别，例如Google在举报的垃圾信息的表单中列出了下列几项内容：

（1）隐藏的文字或链接

（2）容易误解或堆积的词汇

（3）与Google检索不匹配的网页

 （4）伪装的网页

（5）欺骗性的网址重新指向

 （6）专门针对搜索引擎的入门网页

（7）复制的网站或网页

此外，Google认为是垃圾信息的也包括其他一些方面，如用图片和无关的词汇填充网页、同样的内容出现在多个域名或次级域名的网页、链接了被认为是低质量的网站，以及容易与知名网站误导的网址。
搜索引擎Inktomi认为是垃圾信息的主要内容为：
 （1）隐藏的、欺骗性的、以及与网页内容不相关的文字

（2）META标签中的内容并非网页内容的真实描述

 （3）没有明确的目的有意设计重新指向的URL
 （4）利用程序使得在搜索结果中出现大量同样的网页

 （5）有意设置让人误解的链接

 （6）并不反映网站真实内容的入门网页或者隐藏的网页

 （7）自动产生大量无关的垃圾链接

由上可以看出，知名的搜索引擎对垃圾信息的定义还是比较一致的。

·4减少搜索结果中垃圾信息的方法

　　·４.１用户之路

　搜索引擎的使用还是有很多技巧的，下面以Google为例介绍传统检索策略在网络信息检索中的应用。

使用Google时可以通过如下方法减少垃圾信息：

·4.1.1多加检索词

由于Google的默认布尔检索符号为‘与’，所以多加检索词，就是使用“用与连接一些进一步限定主题概念的相关检索项，增加相互制约”这一方法。通过多个检索词的“与”，可以缩小检索范围，增加检索的查准率。

·4.1.2提高查全率则的方法

(1)使用一个更宽泛的词

(2)将语言设为任何语言，将时间设为任何时间，出现位置设为任何位置

(3)指定类似网页，通过浏览类似网页来解决查全率问题。对于某些搜索引擎还可以通过“或”来连接检索词，用通配符(x)来进行检索等方式提高检索范围。限制某一词汇的出现。在Google中，如果要避免搜索某个词语，可以在这个词前面加上一个减号(“-”，英文字符)，但在减号之前必须留一空格。

·4.1.3限制检索词出现的字段

有一些词后面加上冒号对Google加有特殊的含义，其中有一个词是“site：”。要在某个特定的域或站点中进行搜索，可以在Google搜索框中输入“site：xxx.com”，要在题目中出现可以加Title。

·4.1.4限制文献类型

如想要的文档类型为word文档，则可以用type：doc来限制；如果文档类型为pdf，则可用Type：pdf来限制等等。

·4.1.5用词组检索

在Google中如果想让两个词总是前后连续出现，中间没有间隔，可以通过用引号将两个词引起来的办法解决，这相当于检索策略中的限制词出现位置的方法。

·４.２技术之路

·4.2.1语言学在网络检索中的应用

目前语言学在网络信息检索中的应用主要表现为语义网络的建立和语义检索。

语义网络的基础是本体(ontology)。本体被广泛接受的定义是Gruber在1993年提出来的：“本体是一个概念化的正式说明，并且在某一特定领域被分享。”一般认为本体为一系列概念、一系列属性和他们的联系以及一系列推论规则的等级描述体系。语义网络由三个层面组成，即元数据层，计划层，逻辑层。

元数据层：这一层的数据模型包含资源和属性的概念。目前RDF(Resource Description Framework)被认为是元数据层最流行的数据模型。

计划层：这一层引进网络本体语言来定义概念和属性的体系描述。目前，RDFS(RDF Schema)是这一层比较成熟的语言。

逻辑层：这一层引进更加有效的网络本体语言。这些语言能够很好地表达描述的逻辑性。OIL(Ontology Inference Layer)和DAML—OIL (Dalpa Agent Markup Language－Ontology Inference Layer)是两种流行的逻辑层语言。

语义网络的建立使得以语义为基础的搜索引擎同时可以建立起来。在语义搜索引擎中，每一个查询都在一些本体的上下文范围内执行。来自本体的一些指南可以提高检索的淮确性。在语义检索中，使用的是概念匹配。即自动抽取文档的概念，加以标引，用户在系统的辅助下选用合适的词语表达自己的信息需求，然后在两者之间执行概念匹配，即匹配在语义上相同、相近、相包含的词语。

·4.2.2数据挖掘技术在网络检索中的应用

数据挖掘技术在信息检索中的作用主要表现在四个方面，一是对用户本身的研究,，是对信息语义的研究，第三是对网页分类提供帮助，最后是对信息表达方式的研究。

1)是对用户本身的研究：

对于同一检索式，不同的用户可能具有不同的含义。这也就意味着从一定程度上讲信息检索应该是个性化的，只有检索出符合用户需求的信息，检索才会成功。利用数据挖掘技术可以跟踪用户网络信息检索行为，包括用户浏览网页的时间、次数、浏览内容、下载内容、检索用词等都可以作为分析用户信息需求的依据。通过对用户兴趣的挖掘，依据用户兴趣为用户检索信息，一方面可以满足用户的个性化需求，另一方面必然会大大提高检索的查淮率。

2)是对信息语义的研究：

利用数据挖掘技术挖掘词汇之间的关系，可以在检索中规范检索词，提供一系列近义词、同义词等方面得到应用。通过数据挖掘可以挖掘出核心词汇，每次检索时用核心词进行检索，可以提高校准率。例如Google中就引入语义关系，在用户输入检索词出现错误时，系统会进行修正，并询问用户系统提供的检索词是否为用户所满意。

3)是对网页分类提供帮助：

信息的表达方式是一种相互关联的方式。一般来说一个网页的各部分可能对应不同的主题区域。理论上讲，只有当检索时同时出现在同一主题区域时，检索结果才会表现出更大的相关性，如果检索词出现在主题不相关的各个部分则与检索主题的相关度就会很小。数据挖掘技术可以通过一定的挖掘算法，区分出网页中不同主题的布局，从而为检索判断相关性提供新的依据。

4)是对信息表达方式的研究：

网上信息纷繁杂乱，需要对数据进行挖掘以实现精确分类。实际上，分类是一个和检索密切相关的领域。在利用搜索引擎对网页进行检索时，如能提供查询的类别信息，必然会缩小与限制检索范围，从而捉高查准率。同时分类可以提供信息的良好组织结构，便于用户进行浏览和过滤信息。目前有些网站提供分类浏览功能，如Yahoo等，但目前网站所提供的分类往往会出现歧义，分类准确率比较低，同时还存在着更新速度慢的问题。利用数据挖掘技术可以将目前分类准确率比较高的算法结合起来，从而提高分类的准确性，提高检索效率。

·4.2.3智能代理技术

Agent一般被用来指任何具有智能、自治性等特性的软件系统。1955年Wooldrige和Jeinnga对Agent作出了权威性的定义：

(1) 弱定义：Agent是一个基于软件或硬件的计算机系统，它拥有自治性、社会能力、反应性和能动性。

(2) 强定义：Agent在弱定义的特性基础上，还要包括情感等人类的特性。

一般说来Agent的基本特性包括自治性、能动性、反应性、连续执行性等；非基本特性包括社会性、个性化和适应性、移动性、情绪和人格等。智能代理技术在信息检索中的应用主要表现在建立用户信息需求模型以及网络信息检索中的信息过滤。一般来说信息过滤方式有三种：即基于内容的过滤，协作过滤和经济过滤。

·4.2.4优化Robot算法

由于这方面比较艰深，也相当专业，本文在这里就不深入探讨了，有兴趣的读者可以参考《情报学报》2002年２月第４期的一篇论文：《搜索引擎中Robot搜索算法的优化》。

综上，本文探讨了搜索引擎的原理，垃圾信息的种类，以及解决搜索引擎检索垃圾信息的方法。

参考文献

李丽珍，吴兴兴，余雪丽，张淑梅.《搜索引擎检索质量控制》. 太原理工大学学报，2003年第３期

郭家义.《网络信息检索效率研究》.图书与情报，2002年11月4日

宋聚平，王永成，滕伟，许欢庆. 《搜索引擎中Robot搜索算法的优化》. 情报学报，2002年2月第4期

营销人员网，http://www.marketingman.net

http://www.google.com/contact/spamreport.html

http://www.searchenginewatch.com/searchday/article.php/2159061

马彪，李恒. 《浅谈搜索引擎的性能评价》