搜索引擎技术学习笔记一

来源：互联网发布：网络上小孩唱歌视频编辑：程序博客网时间：2024/05/21 17:05

学习笔记上传失败，原版文档在这里;http://pan.baidu.com/s/1slIukvN

今天只是初步开始学习搜索引擎技术，接下来的时间会继续学习和更新，欢迎有兴趣的朋友多多交流。

搜索引擎的处理对象是网页，网页的数量数以百亿计，所以搜索引擎面临的首要问题就是：如何设计高效的下载系统，将如此海量的页面数据传送到本地，在本地形成互联网页面的镜像备份。

下面是一个通用的爬虫框架：

互联网的页面划分包括五个部分：已下载网页集合、已过期网页集合、待下载网页集合、可知网页集合、不可知网页集合。如下：

爬虫主要分为三类：批量型爬虫（Batch Crawler）、增量型爬虫（Incremental Crawler）、垂直型爬虫（Focused Crawler）。

优秀爬虫的特性：高性能、可扩展性、健壮性、友好性。

目前爬虫研发的目标（三个尽可能）：因为搜索引擎只能抓取互联网的一部分页面，那么就尽可能地选择比较重要的那部分页面来索引；对于已经抓取到的网页，尽可能快的更新其内容，使得索引网页和互联网对应页面的内容同步更新；在此基础上尽可能的扩大抓取的范围，抓取到更多以前无法发现的页面。

Google的两套爬虫系统，对于更新周期不同的页面采用不同的爬取策略。爬虫的抓取策略有很多但是基本目标一致就是：优先抓取更重要的页面。比较有代表性的抓取策略包括：宽度优先遍历策略、非完全PageRank策略、OCIP策略、大站优先策略。

暗网抓取（Deep WebCrawling），暗网，是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。因为搜索引擎依赖于页面中的连接关系发现新的页面，但是很多网站的内容是以数据库方式存储的，很难有显示的链接指向数据库内的记录，往往是服务网站提供组合查询界面，只有用户按照需求输入查询之后，才可能获得相关数据。所以，常规的爬虫无法索引这些数据内容，这也就是暗网的由来。为了能够对暗网数据进行索引，需要研发与常规爬虫机制不同的系统，成为暗网爬虫；大型搜索引擎服务提供商都将暗网挖掘作为重要的研究方向，因为这直接关系到索引量的大小。

对于暗网爬虫来说，技术挑战主要有两点：一是查询组合太多；二是有的查询是文本框，爬虫怎样才能填入合适的内容。

0 0