网络蜘蛛程序的设计与实现(二)网页抓取策略
来源:互联网 发布:中国数据新闻 编辑:程序博客网 时间:2024/05/16 01:03
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
广度优先搜索策略
广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。
最佳优先搜索策略
最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。将在网页分析算法作具体的讨论。研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。
- 网络蜘蛛程序的设计与实现(二)网页抓取策略
- 网络蜘蛛程序的设计与实现(三)网页分析算法
- 网络蜘蛛程序的设计与实现 (一)前言
- 网络蜘蛛--抓取一个网页的邮箱
- 网络蜘蛛程序的设计与实现(四)PageRank揭密
- 网络蜘蛛程序的设计与实现(五)HillTop算法
- 网络蜘蛛采用三种策略来决定抓取网页的先后顺序
- 网络爬虫(网络蜘蛛)之网页抓取
- 网络爬虫(网络蜘蛛)之网页抓取
- 网络爬虫(网络蜘蛛)之网页抓取
- 网络爬虫(网络蜘蛛)之网页抓取
- 网络爬虫(网络蜘蛛)之网页抓取
- 包含网站目录提取与网页归属目录的蜘蛛程序总体设计
- Java---网络蜘蛛-网页邮箱抓取器~源码
- 网站信息自动抓取类/蜘蛛程序/网络机器人
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 致表妹
- C# GridView中鼠标指向行ToolTip提示相关信息
- 一光年等于63,420天文单位
- 3D游戏制作学习流程
- 不管怎样
- 网络蜘蛛程序的设计与实现(二)网页抓取策略
- windows+lighttpd+php+flash cs3搭建随意拖放视频网站(2)-PHP配置
- 判断路径是否存在,文件拷贝
- 上传张最近做的E2用的xmms的界面的截图
- exe4j + Inno Setup 带着JRE, 8M起飞
- sudo: /etc/sudoers is mode 0640, should be 0440解决办法
- unix下编写socket程序的一般步骤
- 分别输入小时和分钟,得到形如 9:28
- 成功地组合异步和同步通信模型