搜索引擎(二)-- 技术架构

来源:互联网 发布:网络接入服务 编辑:程序博客网 时间:2024/05/01 15:33

搜索引擎要在保证搜索结果质量的前提下,对百亿计的海量网页进行抓取、存储、处理。优秀的搜索引擎需要复杂的架构和算法支撑上述功能并对用户的请求快速而准确的响应。搜索引擎从宏观上可看成两大模块。后台计算系统和前台计算系统。搜索引擎技术架构图如图所示。

这里写图片描述

后台计算系统主要负责海量信息获取与存储。搜索引擎利用网络爬虫将全网信息本地化并去重。通过网页解析,抽取信息主题及其他URL。网页内容通过“倒排索引”的高效查询数据结构存储,并保存网页间的链接关系。通过链接分析判断网页重要性,并利用倒序索引进行网页相关性排序。前台计算系统负责响应用户查询。当接收到用户查询词后,分析用户真正意图。首先在缓存中查询满足用户需求的信息,若找到则直接响应给用户,减少重复计算,加快响应速度;否则调用网页排序模块,同时考虑网页的内容相关性及重要性,对网页排序,作为用户查询的搜索结果。除上述基础功能外,日前,搜索引擎“反作弊”也被日益关注。“反作弊”即对恶意提高网页排名等进行防护并处罚。

0 0
原创粉丝点击