scrapy 403error

来源：互联网发布：达内学美工费用编辑：程序博客网时间：2024/05/16 03:51

学习scrapy开始阶段，想试着爬取豆瓣的读书记录，于是利用scrapy shell：

也没报错，但查看response的状态时，出现了403问题：

果断找度娘，这种问题也是爬虫常见的问题，服务器做了反扒措施，解决办法：http://blog.csdn.net/iefreer/article/details/34631291

简而言之就是爬虫模拟浏览器加个http的访问请求头，请求头中包含了浏览器的信息，服务器就会认为是浏览器在访问，那么在scrapy shell 怎么加呢？这次度娘好像不给力了，直接去StackOverFlow：上面给了答案：http://stackoverflow.com/questions/37010524/set-headers-for-scrapy-shell-request

实验成功，然后再输入response.body，源源不断的html源代码就飞出来了；

这里还注意一点，出入网址的时候，尽量完整，不要只输入域名；还要注意是http还是https

0 0