爬虫遇到连接中断问题,误以为是反爬
来源:互联网 发布:sql语言的特点 编辑:程序博客网 时间:2024/04/29 09:32
基友们在玩炉石传说,提出了一个想法
这个项目的第一步就是要到炉石传说卡牌工具页抓取数据
利用爬虫抓数据,一般我就直接上 selenium+phantomjs了。后来基友说这个网页是使用了AJAX来翻页,可以看看XHR。然后查了一下,资料点击这里,就开始使用 requests 直接抓数据。
在抓取过程中,会经常遇到 ConnectionError: ('Connection aborted.', error(10054, ''))
甚是蛋疼。。。
查询资料,看到了一些看似可行的方案:
1. head中有一个user-agent每次都换不同的模拟代理
2. 测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
3. 每次请求中断上一次链接,keep-live=false (没搞懂这里,查了一下资料)
4. 不然就是换IP访问
经过简单的测试:
1. 把访问间隔时间设置较大,通常都能有比较好的表现
2. 若想尽量缩短间隔时间,可以设置多个user-agent
3. 换IP还没尝试,IP代理比较麻烦,后续补坑
这里还看到了另一篇文章,先留着慢慢研究
后续:
经过单独对 待抓取的网页接口、通过该接口获取的待抓取的图片链接 进行测试,发现是那个网页接口会出现连接中断的情况,而图片链接并不会。故而,对网页接口设置了失败重连,就解决了。。。所以,应该不是遭遇反爬
阅读全文
0 0
- 爬虫遇到连接中断问题,误以为是反爬
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- AGW(lvs)长连接后端应用重启遇到连接中断问题
- 爬虫中遇到的问题
- cortex A9 中断模式遇到的问题
- 写定时器中断遇到的问题
- 遇到Unbuntu dpkg 被中断的问题
- 多线程爬虫遇到问题求大神指教
- python 爬虫遇到的网页乱码问题
- 编写爬虫遇到的问题总结
- 自学Python爬虫遇到的一些问题
- Python学习爬虫中遇到点问题
- python爬虫请求网页时遇到问题
- 遇到的防爬虫问题的解决方案
- 图的各个英文单词区别
- mac技巧
- 第七周第一节课
- Spring中IOC与AOP心得
- 水仙花数的找出
- 爬虫遇到连接中断问题,误以为是反爬
- hdu 5597 欧拉函数+打表
- 初识python
- hdu5898 odd-even number (数位DP)
- 2006年培养学员8万人,每年增长25%,请问按照次增长速度,到哪一年培养学员人数将达到20万人?(分别用while do while 和 for语句作答)
- KMP算法next数组求法
- 【安全牛学习笔记】漏洞扫描
- 5、玩转树莓派音频——打造便携式合成器
- 量化分析(7)——移动均线、macd线