『Scrapy』登陆知乎中遇到的各种坑
来源:互联网 发布:校园预防网络诈骗ppt 编辑:程序博客网 时间:2024/06/02 06:58
1、在请求登陆页面时报错: 500 Internal Server Error
解决办法:在 Request() 中添加 header 信息
如:
# 重写爬虫类的方法,实现自定义请求 def start_requests(self): return [Request("https://www.zhihu.com/#signin", headers=settings["HEADER"], cookies=settings["COOKIE"], meta={"cookiejar": 1}, callback=self.post_login)]
注:settings["HEADER"] 和 settings["COOKIe"] 可以通过浏览器获得
2、需要先获取 xsrf 的值
方法如下:
xsrf = Selector(response).xpath('//input[@name="_xsrf"]/@value').extract()[0]
3、不要在 COOKIE 中设置 xsrf ,由于知乎每次返回的 xsrf 都不同,所以每次都要重新获取,而如果在 COOKIE 中设置了,则即使获取了新的 xsrf ,也不会取代旧的
4、在 3 的基础上,不要在 COOKIE 中设置 xsrf,而是在 formdata 中设置
formdata={ "_xsrf": xsrf, "email": "1905199415@qq.com", "password": self.passwd, "captcha_type": "cn",},
5、登陆时请求的 URL 不是 "https://www.zhihu.com/#signin", 而是请求 "https://www.zhihu.com/login/email"
6、formdata 关键字的获得技巧
首先在浏览器中打开网站登陆页面,然后打开按 F12(谷歌浏览器Chrome),然后点击 NetWork ,然后输入用户名和故意输错的密码,再点击提交,然后在刷新出来的 URL 中找到有 Form Data 的 URL,并获得关键字
7、
0 0
- 『Scrapy』登陆知乎中遇到的各种坑
- Scrapy遇到的坑
- scrapy遇到的坑
- scrapy爬取某网站,模拟登陆过程中遇到的那些坑
- Scrapy中遇到的坑
- scrapy 爬虫遇到的坑
- 『Scrapy』登录人人贷并抓取借贷人信息中遇到的坑
- 遇到的各种坑
- Scrapy入门教程中遇到的坑
- 安装Scrapy遇到的坑(python)
- scrapy刚安装会遇到的坑
- ubuntu安装pip+python27+ipython+scrapy+zlib+libssl-dev-及遇到的各种问题解决
- ubuntu安装pip+python27+ipython+scrapy+zlib-及遇到的各种问题解决
- ubuntu安装pip+python27+ipython+scrapy+zlib-及遇到的各种问题解决
- 『Scrapy』日常工作和学习中所遇到的坑及解决办法——长期更新
- win10 Scrapy遇到的问题
- Mac上安装Scrapy上遇到的坑
- 关于Scrapy 自定义Spider Middleware中遇到的坑
- 设计模式~装饰模式
- TeamViewer和Configure Virtual Serial Port Driver进行远程桌面控制
- es6+webpack+vue项目实践
- 算法笔试题(六):删除给定字符串中出现次数最多的字符
- angularJS 购物车练习
- 『Scrapy』登陆知乎中遇到的各种坑
- java List集合中contains方法总是返回false
- 通过输入cmd命令提示符将txt多个文本合并成一个文本
- Leetcode 234 Palindrome Linked List
- Android开发中动画使用的注意事项
- 美国昆腾17年2季度财报营收1.32~1.34亿美
- 【动态规划】 之 动态规划解题的一般思路
- 两位资深设计师谈设计和工具
- Leetcode 70. Climbing Stairs