工作原理

来源：互联网发布：centos 无法输入中文编辑：程序博客网时间：2024/04/27 19:07

搜索引擎，一种在web上应用的软件系统，它以一定的策略在web上搜集和发现信息，在对信息进行处理和组织后，为用户提供web信息查询服务。一般来说，它大致上被分成网页搜集、预处理和查询服务三个工作流程

从网络用户的角度看，搜索引擎的作用仅仅是在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表。

可以接受的时间，也就是响应时间。对于在Web上面向广大用户提供服务的软件来说，这个时间不能太长，通常也就在“秒”这个量级。这是衡量搜索引擎可用性的一个基本指标。而且，要求不仅是能满足单个用户查询，而且要能在系统设计负载的情况下满足所有的用户。也就是说，系统应该在额定吞吐率的情况下保证秒级响应时间。

“匹配”，指的是网页中以某种形式包含有q的内容，其中最简单、最常见的形式就是查询词或短语在其中直接体现

返回的信息列中，其每一条目代表一篇网页，至少包含三个元素：
    标题：网页内容的标题。最简单的方式就是从网页的<TITLE></TITLE>标签中提取的内容。（尽管在一些情况下并不真正反映网页的内容）。
    URL：该网页对应的“访问地址”。有经验的Web用户可以通过URL对网页内容的权威性进行判断，例如搜狐等门户网站上的内容通常就比小网站的要更权威些。
    摘要：网页内容的摘要。最简单的一种方式就是截取网页内容的头若干字节（例如512）。
由于Web上的信息量大，也由于搜索引擎的查询方式简单，所以在绝大多数情况下，这个列表是相当长的，可能超过万个条目。很少有用户用耐心都审视一遍，有分析统计表明，用户平均查看不会超过2页。所以，在搜索引擎中，分析信息的重要性也是很关键的。