反爬虫技术
来源:互联网 发布:淘宝图库官网 编辑:程序博客网 时间:2024/06/05 12:00
用netstat检查80端口的连接
sh netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n
这行shell可以按照80端口连接数量对来源IP进行排序,这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。 直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面,可能在一个C段里面的多台服务器上面都有爬虫,而这个C段不可能是用户宽带上网,封锁C段可以很大程度上解决问题。
- 频率限制,每分钟超过N次访问的IP封掉,如3小时访问量超过50次时,弹出验证框,验证内容输入错误,则计入黑名单
- 爬虫爬取网页的频率都是比较固定的,不像人去访问网页,中间的间隔时间比较无规则,
所以我们可以给每个IP地址建立一个时间窗口,记录IP地址最近12次访问时间,每记录一次就滑动一次窗口,比较最近访问时间和当前时间,
如果间隔时间很长判断不是爬虫,清除时间窗口,如果间隔不长,就回溯计算指定时间段的访问频率,如果访问频率超过阀值,就转向验证码页面让用户填写验证码 - 爬虫一般不抓取css、js等资源文件
- 如果是垂直爬虫,往往访问数据具有明显的目的性,如果返现某些IP访问某些数据超过正常频次,且这些这些IP并没有访问其他任何资源,则可以断定是爬虫
- 搞个计数器,把特定ip一天内的总次数和每秒内的频率记录下来,达到实时拦截的目的(这个类似淘宝的TMD,用分布式缓存计数,超出规则,要么直接拒绝,要么跳到输入验证码的页面)
- 把apache或nginx日志分析和js埋点对比来分析,爬虫请求在无法模拟浏览器请求的时候,无法执行js代码,页面没有埋点,但是这个请求,会在web日志中留下,js有小问题,就是用户请求的时候,如果浏览器有缓存,实际上没有请求服务器端,但是js确埋了一个点,对比分析,效果会好很多
参考:http://www.cnblogs.com/ollieroad/p/5121719.html
0 0
- 反爬虫技术
- 反爬虫技术
- 反爬虫技术
- 反爬虫技术方案
- 网络爬虫反爬技术
- 反爬虫
- 反爬虫
- 反爬虫
- 反爬虫
- 反爬虫
- 反-反爬虫
- 从零开始写Python爬虫 --- 1.9 爬虫实践:悦音台mv排行榜与反爬虫技术
- 爬虫-07-反爬虫
- 爬虫实践---悦音台mv排行榜与简单反爬虫技术应用
- 反反爬虫的招数
- 反反爬虫之见招拆招
- 反反爬虫相关机制
- 关于爬虫和反爬虫
- centos7不能ping通百度
- bootstrap table获取选中行的值
- 抽屉控件——DrawerLayout
- java后台处理APP表情
- 常用的英文缩写和短信缩写
- 反爬虫技术
- 微信小程序 事件冒泡,bangtap,catchtap事件绑定
- 【龙芯1c库】龙芯1c的中断分析
- php-ob缓存实现页面静态化
- git上出现:warning: LF will be replaced by CRLF
- Android Ashmem匿名共享内存 Java实例
- 360加固保的dex脱壳方法
- 向云服务器上传下载文件方法汇总
- seq2seq 实例