关于网络爬虫与网站限制IP的思考

来源:互联网 发布:mac显示器有寿命吗? 编辑:程序博客网 时间:2024/05/16 17:07

网络爬虫者和网站开发人员一直在玩着“潜伏”的游戏,开发人员需要火眼金睛,网络爬虫者需要72般变化,成功演绎一场攻防战。

作为网站后台开发人员,需要对恶意频繁访问的请求进行限制,甚至将请求IP拉入到黑名单,以免给网站带来大量的并发。

而对于网络爬虫者,为了获取查询数据结果,他们会尽量模仿真实用户的请求,防止被网站设别。
        采取的方式有:
               1、user agent 伪装和轮换,尽量模拟真实用户请求
                2、使用多IP或者代理IP进行轮换
                3、访问时间间隔设长一点,访问时间设置为随机数

当然,作为一个有良心的coder,如果能够通过正规途径来抓取网站数据(比如webservice),请采用正规途径,这样也可以得到网站的技术支持。如果需要线下来抓取,
则尽量把抓取频率降低些,一方面是防止网站后台识别;另一方面也是考虑网站的承受压力。毕竟如果真把别人惹毛了,人家随意一个程序修改,就可以让你的
程序前功尽弃,就如12306不断的更新就是恶意防止别个软件的访问。
0 0
原创粉丝点击