scrapy 403error
来源:互联网 发布:达内学美工费用 编辑:程序博客网 时间:2024/05/16 03:51
学习scrapy开始阶段,想试着爬取豆瓣的读书记录,于是 利用scrapy shell:
也没报错,但查看response的状态时,出现了403问题:
果断找度娘,这种问题也是爬虫常见的问题,服务器做了反扒措施,解决办法:http://blog.csdn.net/iefreer/article/details/34631291
简而言之就是爬虫模拟浏览器加个http的访问请求头,请求头中包含了浏览器的信息,服务器就会认为是浏览器在访问,那么在scrapy shell 怎么加呢?这次度娘好像不给力了,直接去StackOverFlow:上面给了答案:http://stackoverflow.com/questions/37010524/set-headers-for-scrapy-shell-request
实验成功,然后再输入response.body,源源不断的html源代码就飞出来了;
这里还注意一点,出入网址的时候,尽量完整,不要只输入域名;还要注意是http还是https
0 0
- scrapy 403error
- scrapy 403error
- scrapy 403error
- python scrapy install error
- Scrapy Unhandled error in Deferred
- scrapy URLerror:<urlopen error [Error 10051]> 问题
- 解决使用scrapy中 ERROR:Error downloading
- scrapy 出现key error 出错解决方法
- scrapy爬虫返回403
- scrapy
- Scrapy
- scrapy
- Scrapy
- Scrapy
- Scrapy
- Scrapy
- Scrapy
- scrapy
- response.setHeader——禁用IE缓存
- java 一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。
- 内部类的访问
- 图书商城中的UserServlet中的继承的BaseServlet的原理
- Scilab的初步介绍
- scrapy 403error
- linux,centos下解压tar,gz,bz2,tgz,zip等
- hjr教程-Android(六):创建Android工程
- STM32F103控制ADS1115采集模拟信号
- 圆圈中最后剩下的数字46
- MySQL及SQL语句笔记
- 【找工作准备】计算机基础知识整理
- ACM:蓝桥杯:笨小熊
- 右键 - 添加Git Bash Here菜单