爬虫总结

来源:互联网 发布:财神软件 编辑:程序博客网 时间:2024/06/05 15:20

某天晚上和大爷探讨爬取医院病例数据,发现用urllib设置了完整的headers(抄了chrome的)甚至加了cookie,都失败了。改成request模块的Session就通过了。记录一下。
参考:
https://segmentfault.com/q/1010000008473868/a-1020000008476482
https://stackoverflow.com/questions/26894320/again-urllib-error-httperror-http-error-400-bad-request
https://www.cnblogs.com/whatbeg/p/5320666.html
http://python.jobbole.com/81344/
这里讲的比较清楚,但还是不够:
https://www.cnblogs.com/BigFishFly/p/6380008.html

原创粉丝点击