[Pholcus爬虫] 应对网站反爬虫的多项策略

来源:互联网 发布:欧文16年总决赛数据 编辑:程序博客网 时间:2024/05/19 18:47

摘要: Pholcus如何应对网站反爬虫策略?

Pholcus应对网站反爬虫的核心思想就是:模仿人工操作

具体应对策略如下:

1、 两次请求之间进行随机暂停 ,该时间可以在操作界面设置
2、 当不需缓存cookie时,设置Spider.EnableCookie=true,下载器将会自动更换User-Agent
3、 支持代理IP,其可以在操作界面设置更换IP的时间频率
4、 自动添加请求头的Referer信息
5、 下载器除Go原生内核外,还提供了PhantomJS内核,它可以直接提交含有一些隐蔽、加密的请求参数,提供请求通过率
6、 规则内可以通过主动设置定时器,来控制采集时间

0 0
原创粉丝点击