搜索引擎技术学习笔记一

来源:互联网 发布:网络上小孩唱歌视频 编辑:程序博客网 时间:2024/05/21 17:05

学习笔记上传失败,原版文档在这里;http://pan.baidu.com/s/1slIukvN

今天只是初步开始学习搜索引擎技术,接下来的时间会继续学习和更新,欢迎有兴趣的朋友多多交流。

搜索引擎的处理对象是网页,网页的数量数以百亿计,所以搜索引擎面临的首要问题就是:如何设计高效的下载系统,将如此海量的页面数据传送到本地,在本地形成互联网页面的镜像备份。

下面是一个通用的爬虫框架:

互联网的页面划分包括五个部分:已下载网页集合、已过期网页集合、待下载网页集合、可知网页集合、不可知网页集合。如下:

               

爬虫主要分为三类:批量型爬虫(Batch Crawler)、增量型爬虫(Incremental Crawler)、垂直型爬虫(Focused Crawler)。

优秀爬虫的特性:高性能、可扩展性、健壮性、友好性。

目前爬虫研发的目标(三个尽可能):因为搜索引擎只能抓取互联网的一部分页面,那么就尽可能地选择比较重要的那部分页面来索引;对于已经抓取到的网页,尽可能快的更新其内容,使得索引网页和互联网对应页面的内容同步更新;在此基础上尽可能的扩大抓取的范围,抓取到更多以前无法发现的页面。

 

Google的两套爬虫系统,对于更新周期不同的页面采用不同的爬取策略。爬虫的抓取策略有很多但是基本目标一致就是:优先抓取更重要的页面。比较有代表性的抓取策略包括:宽度优先遍历策略、非完全PageRank策略、OCIP策略、大站优先策略。

暗网抓取(Deep WebCrawling),暗网,是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。因为搜索引擎依赖于页面中的连接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,很难有显示的链接指向数据库内的记录,往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才可能获得相关数据。所以,常规的爬虫无法索引这些数据内容,这也就是暗网的由来。为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,成为暗网爬虫;大型搜索引擎服务提供商都将暗网挖掘作为重要的研究方向,因为这直接关系到索引量的大小。

    对于暗网爬虫来说,技术挑战主要有两点:一是查询组合太多;二是有的查询是文本框,爬虫怎样才能填入合适的内容。

 

0 0
原创粉丝点击