网络爬虫 介绍

来源:互联网 发布:js阻止超链接跳转 编辑:程序博客网 时间:2024/06/05 14:34

一:网络爬虫的工作原理

网络爬虫即Web Spider 。其原理如下图所示。


网络爬虫在搜索时通常采用一定的策略,来提高搜索效率。

(1)广度优先策略

          网络爬虫先抓取其实网页链接到的所以网页,然后在选择其中的一个链接网页继续抓取在此网页中链接的所有网页,这种方法可以让网络蜘蛛并行处理,提高抓取速度

(2)深度优先策略

         网络蜘蛛会从起始页开始,一个链接一个链接的跟踪下去,处理完这条线路之后在转入下一条起始页,继续跟踪链接,这种方式的设计比较简单


二:聚焦搜素策略

聚焦搜索策略需要按照一定的网页分析算法过滤掉与主题无关的连接,保留有用链接,并将其放入URL队列,之后根据一定的搜索策略从队列中选择下一步要抓取的URL,并重复上述过程,直到达到某一条件为止。

与普通网络爬虫相比,聚焦爬虫主要增加了两点:

     (1):对抓取目标主题进行定义与描述

      (2):对网页数据分析与主题匹配

聚焦类爬虫工作流程:

对页面聚焦的分析和主题匹配

(1)基于网络拓扑结构的分析算法:

          PageRank算法

         HITS算法

(2)基于网页内容的分析算法:

       wrapper算法

      机器学习模式的数据挖掘算法

0 0
原创粉丝点击