网络爬虫防止被封的策略和反反爬策略简单总结
来源:互联网 发布:mac魔兽世界鼠标右键 编辑:程序博客网 时间:2024/05/21 17:08
今天不想工作,比较累,遇到一个网站反爬比较严重,不说具体哪个名字了,简单总结下爬虫防封策略
1,伪装http 头
chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user
2,代理ip,对于限制ip 或者ip被封的采用代理ip
代理ip 可以抓取,本人每天监控十多个网站,每天能抓取一批,计划以后每天公布几个可以访问百度的代理ip,注意用高匿的最安全
3,有些需要进行登录
进行模拟登录,或者手动登录了 记下cookie 天上
4,验证码
目前有些简单的验证码机器可以识别下,有些不行,需要人工输入,当出现反爬,报警后,再人工干预下
5,注意抓取频度
这是反爬的一个最简单,但是很实用的方式
6,可以使用拨号的ip,定期拨号更换ip,注意间断一段时间,保证ip变化
7,采用模拟浏览器的一些方式,进行模拟人的行为,包括自动填表,自动点击,自动滑动滚动条等,可以用selenium 和htmlunit 实现,phtomjs 也是一个不错的选择
8,分析网站反爬的一些策略,进行相应的反反爬策略去除,比如有些转为爬虫设置的一些坑,需要识别出来,具体大家可以搜搜一些
0 0
- 网络爬虫防止被封的策略和反反爬策略简单总结
- 网络爬虫简单策略
- 网络爬虫的选择策略
- 爬虫过程中关于IP被封与反扒的策略
- 反爬虫策略总结
- 网络爬虫道魔的策略
- 价值网络和策略网络的简单融合
- 网络爬虫基本工作流程和抓取策略
- 信息度的分类提取策略-------基于python(网络爬虫)
- 网络爬虫--防止爬虫被屏蔽的集中方式的总结
- 爬虫的道魔策略
- 爬虫的去重策略
- 防止网站被黑策略
- 搜索引擎—网络爬虫抓取策略
- 【网络爬虫】【java】微博爬虫(五):防止爬虫被墙的几个技巧(总结篇)
- 网络爬虫:采用“负载均衡”策略来优化网络爬虫
- 策略模式和简单工厂+策略模式
- 简单工厂和策略模式的区别
- Windows小知识(关联文件打开类型,快捷键,命令行语句执行原理,快速编辑模式)
- Python单例模式的4种实现方法
- sqlite3_get_table()函数
- eclipse启动tomcat出现内存溢出错误 java.lang.OutOfMemoryError: PermGen space
- POJ 1222 EXTENDED LIGHTS OUT 已翻译
- 网络爬虫防止被封的策略和反反爬策略简单总结
- 【DragonBone】实现骨骼动画倒放的参数
- 回复热爱计算机的数控生
- Python读取写入文件
- java-String
- Android—四大线程池的使用介绍
- 802.11协议中的一些帧的理解
- FFT原理与实现
- 几个linux常用命令