搜索引擎(二)-- 技术架构
来源:互联网 发布:网络接入服务 编辑:程序博客网 时间:2024/05/01 15:33
搜索引擎要在保证搜索结果质量的前提下,对百亿计的海量网页进行抓取、存储、处理。优秀的搜索引擎需要复杂的架构和算法支撑上述功能并对用户的请求快速而准确的响应。搜索引擎从宏观上可看成两大模块。后台计算系统和前台计算系统。搜索引擎技术架构图如图所示。
后台计算系统主要负责海量信息获取与存储。搜索引擎利用网络爬虫将全网信息本地化并去重。通过网页解析,抽取信息主题及其他URL。网页内容通过“倒排索引”的高效查询数据结构存储,并保存网页间的链接关系。通过链接分析判断网页重要性,并利用倒序索引进行网页相关性排序。前台计算系统负责响应用户查询。当接收到用户查询词后,分析用户真正意图。首先在缓存中查询满足用户需求的信息,若找到则直接响应给用户,减少重复计算,加快响应速度;否则调用网页排序模块,同时考虑网页的内容相关性及重要性,对网页排序,作为用户查询的搜索结果。除上述基础功能外,日前,搜索引擎“反作弊”也被日益关注。“反作弊”即对恶意提高网页排名等进行防护并处罚。
0 0
- 搜索引擎(二)-- 技术架构
- 搜索引擎技术:系统架构
- 搜索引擎的技术架构
- 搜索引擎的技术架构
- 搜索引擎的技术架构
- 搜索引擎的技术架构
- 搜索引擎的技术架构
- 【搜索引擎基础知识1】搜索引擎的技术架构
- 【搜索引擎基础知识1】搜索引擎的技术架构
- 搜索引擎技术:排序之二
- 搜索引擎的设计与实现(二)技术选型--爬虫
- 全文检索技术 lucene(二) 自己动手写一个搜索引擎
- 搜索引擎技术:系统架构之四
- 搜索引擎技术:系统架构之三
- 搜索引擎技术之整体架构设计
- 浅谈搜索引擎技术原理与架构
- 搜索引擎相关架构和技术点梳理
- 《这就是搜索引擎》— 搜索引擎及其技术架构
- 最长上升子序列
- 电商静态压缩
- 关于ThreadLocal的运用
- python之简单使用json文件
- 第一篇博客
- 搜索引擎(二)-- 技术架构
- extern C的作用详解
- 学生管理系统的三种版本
- synchronized关键字详解
- Java去掉小数点后面不需要的0
- x&(x-1)
- Swift - 如何用Reachability来混编判断网络状况
- 5-23 IP地址转换 (20分) (位操作)
- 给Recyclerview的item设置不同布局的Adapter