scrapy 403error

来源:互联网 发布:达内学美工费用 编辑:程序博客网 时间:2024/05/16 03:51

学习scrapy开始阶段,想试着爬取豆瓣的读书记录,于是 利用scrapy shell:

也没报错,但查看response的状态时,出现了403问题:

果断找度娘,这种问题也是爬虫常见的问题,服务器做了反扒措施,解决办法:http://blog.csdn.net/iefreer/article/details/34631291

简而言之就是爬虫模拟浏览器加个http的访问请求头,请求头中包含了浏览器的信息,服务器就会认为是浏览器在访问,那么在scrapy shell 怎么加呢?这次度娘好像不给力了,直接去StackOverFlow:上面给了答案:http://stackoverflow.com/questions/37010524/set-headers-for-scrapy-shell-request


实验成功,然后再输入response.body,源源不断的html源代码就飞出来了;


这里还注意一点,出入网址的时候,尽量完整,不要只输入域名;还要注意是http还是https




0 0