Python 爬虫中遇到的反爬虫问题
来源:互联网 发布:郑州丰泽教育编程 编辑:程序博客网 时间:2024/05/01 23:32
源网站一般会有下面几种限制
1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。
2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用大量行为正常的账号,行为正常就是普通人怎么在社交网站上的操作,并且单位时间内,访问url数目尽量减少,可以每次访问中间间隔一段时间,这段时间可以是一个随机量,即每次访问完一个url,随机睡眠一段时间,在接着访问下一个url。
3、如果能把账号和ip的访问策略控制好,就可以了当然对方网站也会有运维需要调整策略,敌我双方的一次较量,爬虫必须要感知到对方的反盗控将会对我们有影响,通知管理员及时处理。其实最理想的是能够通过机器学习,智能的实现反盗控制,实现不间断抓取
0 0
- Python 爬虫中遇到的反爬虫问题
- 爬虫中遇到的问题
- Python学习爬虫中遇到点问题
- python爬虫实战(关于工作中遇到的问题)
- python 爬虫遇到的网页乱码问题
- 自学Python爬虫遇到的一些问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 爬虫遇到的问题
- 第八章 爬虫中遇到的问题
- 实现简单爬虫中遇到的问题
- 【Python】反爬虫
- 一.python 反爬虫
- python爬虫中乱码的问题
- python 爬虫过程中汉字编码的问题
- python爬虫进阶(七):应对反爬虫的策略
- Java网络编程之URL
- 大数据到底如何在企业中发挥价值
- 面向对象1
- 把excel自动导入数据库 根据excel内容自动创建数据库表
- 树莓派重新启动和复位的方法
- Python 爬虫中遇到的反爬虫问题
- 【poj1008】玛雅历
- java sax解析xml
- Qt事件处理机制
- java的volatile机制(前篇)
- 迷茫的孩子
- J2SE-选择排序法初识
- 去掉标题栏的JFrame如何实现拖动
- Linux下源码安装mysql及mysql的简单用法