Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
来源:互联网 发布:神之浩劫ps4港服网络 编辑:程序博客网 时间:2024/05/22 05:19
网站站点的背景调研
1. 检查 robots.txt
网站都会定义robots.txt
文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了,这个限制仅仅只是一个建议,你可以遵守,也可以不遵守。但对于一个良好的网民来说,最好还是遵守robots.txt
文件里面的限制。
Q: 如何查看这个 robots.txt
文件?
A: 你只需要在 目标网站站点域名 后面加上 robots.txt
即可。
举例:目标网站站点域名:http://www.aobosir.com/ 。目标网站站点的robots.txt
文件:http://www.aobosir.com/robots.txt 。
# section 1User-agent: BadCrawlerDisallow: /# section 2User-agent: *Crawl-delay: 5Disallow: /trap# section 3Sitemap: http://aobojaing.github.io/sitemap.xml
Q: robots.txt
文件里面的东西都是什么意思,又有什么用?
A: 一个部分一个部分的讲解:
section 1:
这部分的意思就是:robots.txt
文件禁止那些代理为 BadCrawler 的爬虫访问该网站。 BadCrawler 中文翻译为:恶意爬网程序。
其实这一部分纯粹没用。因为一个恶意爬虫是根本不会代理成:BadCrawler
来访问网站的。你想啊,一个小偷,他会在偷别人东西之前告诉对方,“我是小偷,我要偷你东西了,你做好准备哦!” ?
我们还是尽量遵守robots.txt
文件里面的要求为好。这套专栏后面的博客中,将会展示如何让爬虫自动遵守 robots.txt
文件的要求。
section 2:
不管什么用户,两次爬取请求之间的间隔时间不可以小于 5秒钟。否则你访问的这个网站会将网页自动跳整到 /trap
链接。
就是说:网站服务器封禁了你的IP。我这个网站是封禁你1分钟的时间。一个真实的网站可能会对你的IP封禁更长的时间,如果你行为恶劣,甚至是永久封禁!
section 3:
定义了一个 Sitemap 文件,这个文件就是所谓的 网站地图。我们马上就来介绍这个文件。
2. 检查 网站地图
下面的截图是在 robots.txt
文件中发现的 Sitemap 文件的内容:
网站提供的 Sitemap 文件(即 网站地图),它提供了网站站点里面所有页面的链接。它们组成了这个 Sitemap 文件,现在你应该清楚:为什么叫这个文件为网站地图了吧。
我们无须爬取某个网站站点里面的每一个网页。网站提供的 Sitemap 文件 帮助了我们的网络爬虫定为网站最新的内容。
虽然 Sitemap 文件提供了一种爬取网站的有效方式,但是我们仍需要对其谨慎处理,因为该文件经常存在缺失、过期或者不完整的问题。
3. 估算 网站大小
Q: 为什么要估算 网站大小?
A: 目标网站的大小指的是,这个站点里面有多少个网页。有多少的网页,会影响到我们如何进行爬取。爬取网站上的信息的方式有两种:串行爬取 和 分布式爬取。如果目标网站的网页数量不是很多,只有几百个网页,使用串行爬取就可以。但是如果一个目标网站的网页有几百万个,我们使用串行爬取的话,可能要持续数月才能完成,这个时候,我们就需要分布式爬取的策略来解决这个问题。
所以,在爬取目标网站之前,估算 网站大小 是很有必要的。
Q: 如何估算 网站大小?
A: 估算网站大小的一个简便方法是:检查Google爬虫的爬取结果。
举例:目标网站:http://blog.csdn.net/github_35160620
,现在我们要估算这个网站的大小。做法:在google搜索栏里面输入:site:http://blog.csdn.net/github_35160620
,就可以了。
Google的爬虫估算该网站拥有98个网页,这个数字和事情情况差不多。(实际上,这个http://blog.csdn.net/github_35160620
网站里面有101格网页。)
- 我们通过 Google搜索的
site
关键词过滤域名结果,从而获取估计的网站大小的信息。- 这个例子估算的结果还算正确。不过对于更大型的网站,我们会发现 Google 的估算并十分准确。
Q: 上不了 Google 网站,怎么办?
A: 告诉你一个方法:无须翻墙,无需任何设置,就可以上谷歌,网速也是相当的快:虫部落 http://so.chongbuluo.com/
4. 识别 网站所用技术
编写中…
5. 寻找 网站所有者
编写中…
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- python网络爬虫学习(二)一个爬取百度贴吧的爬虫程序
- Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫
- Python 网络爬虫--简单的爬取一些防爬取的网站
- 【Python网络爬虫学习02】爬取有效的网站验证码
- Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
- [笔记]python网络爬虫:一个简单的爬取图片并存储示例
- [笔记]python网络爬虫:一个简单的定向爬取大学排名信息示例
- 网络爬虫爬取策略,注意爬虫爬取网站的频率
- Python爬虫——爬取网站的图片
- Python可自动登录爬取图片的网络爬虫
- python爬虫实现网络股票信息爬取的demo
- Python爬虫爬取网站新闻
- Python爬虫 爬取翻译类网站
- Python开发爬虫,爬取网站
- python爬虫爬取网站图片
- 一个简单的网络爬虫---爬取网页中的图片
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
- (18)Struts2_通用标签
- Ubuntu常用指令与快捷键
- 剑指offer系列-T40找出数组中只出现一次的2个数
- Unity3D Mesh小课堂(一)三角形
- 【RMQ算法】ST表
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- 【20160904】NOIP模拟赛T4
- GCC编译器下的-L与-l的区别
- mybatis特殊字符模糊匹配
- 素数判断及筛法
- 清奇的动物界:萌翻你的高难度瑜伽姿势
- DFS深度优先算法
- poj1741 Tree
- Failed to start component [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/**]