scrapy 坑之roboot协议

来源:互联网 发布:整人专家软件 编辑:程序博客网 时间:2024/06/06 03:32

roboot协议也称为机器人协议,或者爬虫协议,他是指网站通过一个roboot.txt文件告诉遵循roboot协议的爬虫引擎哪些页面可以爬,哪些页面不能爬取。比如天猫的一些网页,搜索引擎就爬不到,但是这只是说,不让爬,并不是说不能爬。只需在scrapy中设置使此爬虫不遵循roboot协议即可。

做法:在setting.py中找到roboot的项(具体项的名字不记得了,在vim中只需搜索roboot即可。


0 0