scrapy爬虫出现Forbidden by robots.txt
来源:互联网 发布:0基础大数据培训多少钱 编辑:程序博客网 时间:2024/04/29 06:06
转自:http://blog.csdn.net/yimingsilence/article/details/52119720
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制(其他保密机制应该还是有的,打开一个页面时,向不同服务器递交了很多请求,还设定了一些不知道干啥的cookies),最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么,发现原来有个robot协议,终于恍然大悟:
我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
2016-06-10 18:16:26 [scrapy] DEBUG: Crawled (200)
0 0
- scrapy爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- scrapy爬虫出现‘Forbidden by robots.txt’错误
- 爬虫出现Forbidden by robots.txt
- 爬虫出现Forbidden by robots.txt
- 爬虫中robots.txt
- 百度爬虫robots.txt文件规范
- 爬虫系列8解析robots.txt
- robots.txt。
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- 第一季度阅读总结以及下一阶段的书单
- Python解决安装模块scikit-learn和python-Levenshtein出现的问题
- 开始写下的话。
- 提示缺少动态链接库.so的解决方法
- 设计模式(三) 抽象工厂的学习和使用
- scrapy爬虫出现Forbidden by robots.txt
- Hackerrank Medium(50) Permutation Happiness 递推
- Android 边边角角
- 自定义分页
- HDU4080后缀数组
- 张量展开与tensor tool box
- Sqoop安装和使用
- $(this)与this的区别
- 为vim编辑器添加默认的作者信息