搜索引擎(一)-- 初识

来源:互联网 发布:淘宝买烟花 编辑:程序博客网 时间:2024/04/30 14:20

搜索引擎是互联网应用中技术含量最高的应用之一。用户通过输入查询词,搜索引擎返回搜索结果,应用形式看似简单,但如何从百亿量的互联网数据数据中准确且高效的获得用户想要的搜索信息,也是不小的挑战。因此,“更全、更快、更准”便是搜索引擎技术的最终目标。对于搜索引擎来说,“更快、更全”是其余其他同类产品竞争的考量之一,然而“更准”却是市场的核心竞争力。

解决“更准”主要集中在3个方面。用户的真正需求。用户查询的平均长度是2.7个单词,如何从简单的请求中获知用户的真正需求。信息与用户需求相关性。明确用户真正意图后,如何从海量数据中找到与之匹配的内容。信息可信赖度。即搜索内容的可靠性、真实性、安全性。

搜索引擎通常由以下构件组成,搜索引擎组成图如图所示。
这里写图片描述

搜索器将互联网上海量(百亿计)网页数据传送到本地,在本地形成互联网网页备份。
分析器对本地文本库进行分析以便于索引。文档分析技术包括分析、过滤和转换等。
索引器理解搜索器的搜索信息,抽取索引项,将文档表示为一种便于检索的方式并存储在索引数据库中,生成文档库的索引表。索引项分为客观索引项与内容索引项。客观索引项与文档内容无关,关注URL、更新时间、长度、链接流行度等;内容索引项分为单索引项和多索引项,反映文档内容,关注关键系权重、短语、单词等。

检索器根据用户查询关键词在索引库中找出相关文档,进行相关性审查,返回符合某一阈值的文档集合。通常由基于关键词检索、基于概念检索与基于内容检索三种方式。
用户接口为用户提供可视化查询接口与结果展示界面。

0 0