爬虫

来源:互联网 发布:mac虚拟机好还是双系统 编辑:程序博客网 时间:2024/04/29 17:24

探索的问题:
IP绑定到一个HttpClient?
绑定的目标实质是维持登陆状态. 更通常的做法是保持旧的cookie
当IP绑定后 发生IP切换应该怎么处理?

1.抓取模块
2.解析模块
3.提取使用模块

常见封爬虫策略(完善中):
1.众所周知:验证码.
2.简单的: UA和cookie.
3.非人类的访问速度. 及特征.
4.表单中添加隐藏的字段.

0 0
原创粉丝点击