Python 爬虫中遇到的反爬虫问题

来源：互联网发布：郑州丰泽教育编程编辑：程序博客网时间：2024/05/01 23:32

源网站一般会有下面几种限制
1、一定时间内单个IP访问次数，一个正常用户访问网站，除非是随意的点着玩，否则不会在一段持续时间内过快访问一个网站，持续时间也不会太长，我们可以采用大量不规则代理ip形成一个线程池，随机从代理池中选择代理，模拟访问。代理有两种，透明代理和匿名代理。

2、一定时间内单个账号访问次数，如果一个人一天24小时都在访问一个数据接口，而且速度非常快，那就有可能是机器人。我们可以采用大量行为正常的账号，行为正常就是普通人怎么在社交网站上的操作，并且单位时间内，访问url数目尽量减少，可以每次访问中间间隔一段时间，这段时间可以是一个随机量，即每次访问完一个url，随机睡眠一段时间，在接着访问下一个url。

3、如果能把账号和ip的访问策略控制好，就可以了当然对方网站也会有运维需要调整策略，敌我双方的一次较量，爬虫必须要感知到对方的反盗控将会对我们有影响，通知管理员及时处理。其实最理想的是能够通过机器学习，智能的实现反盗控制，实现不间断抓取

0 0