关于网络爬虫与网站限制IP的思考
来源:互联网 发布:mac显示器有寿命吗? 编辑:程序博客网 时间:2024/05/16 17:07
网络爬虫者和网站开发人员一直在玩着“潜伏”的游戏,开发人员需要火眼金睛,网络爬虫者需要72般变化,成功演绎一场攻防战。
作为网站后台开发人员,需要对恶意频繁访问的请求进行限制,甚至将请求IP拉入到黑名单,以免给网站带来大量的并发。
而对于网络爬虫者,为了获取查询数据结果,他们会尽量模仿真实用户的请求,防止被网站设别。采取的方式有:
1、user agent 伪装和轮换,尽量模拟真实用户请求
2、使用多IP或者代理IP进行轮换
3、访问时间间隔设长一点,访问时间设置为随机数
当然,作为一个有良心的coder,如果能够通过正规途径来抓取网站数据(比如webservice),请采用正规途径,这样也可以得到网站的技术支持。如果需要线下来抓取,
则尽量把抓取频率降低些,一方面是防止网站后台识别;另一方面也是考虑网站的承受压力。毕竟如果真把别人惹毛了,人家随意一个程序修改,就可以让你的
程序前功尽弃,就如12306不断的更新就是恶意防止别个软件的访问。
0 0
- 关于网络爬虫与网站限制IP的思考
- 采集爬虫中,解决网站限制IP的问题?
- 关于网络爬虫及ip代理服务的理解
- 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)
- 网络爬虫引发的问题及限制
- 关于anchor picture参考限制的思考
- 关于网站体验的思考
- 关于网站分析的思考
- 关于社交网站的思考
- 关于网站分析的思考
- 关于导航网站的思考
- 网站与网络爬虫(Spider或Robot)
- 关于网络爬虫的基本原理
- 关于投票ip限制的一种手段
- 关于投票ip限制的一种手段
- 网络爬虫IP列表
- Python网络爬虫的网站实例
- 关于Web 2.0 网站的创业思考
- javascript Date format(js日期格式化)
- oracle的用户授权问题:如何把一个用户的所有表的读写权限授予另一个用户
- C# .ToString() 格式化
- 淘宝u站是什么?淘宝u站是干啥的?
- 标准C++中的string类的用法总结
- 关于网络爬虫与网站限制IP的思考
- VC++6 详细安装步骤
- JAVA JDK API 源码学习 - Arrays.toString
- 黑马程序员java中的享元模式
- 我们在写程序时,常常会遇到类型转换的问题。现总结一些常见的类型转换。
- 8款让前端开发者心动的jQuery/CSS3应用(个人记录)
- 一些好的网站
- Flex 设置初始文本框焦点
- 威威猫系列故事——打地鼠(腾讯马拉松第三场)