【爬虫－反爬虫】系列一：-尾篇(7)

来源：互联网发布：wifi自动切换软件编辑：程序博客网时间：2024/05/20 09:24

尾篇(7)

写到这里，本专题可以告一段落了，如果你理解了之前的文章且认真实践过，相信绝大多数网站的数据都能爬取下来。

闲聊部分

为了让更多新手小白们阅读起来不吃力，本专题文笔刻意通俗，很多概念也有意的多次重复提及，且章节间联系紧密，对于新手来说，建议完整看一遍。

虽然近些年手机app的普及造成许多数据的封闭性，难以爬取，但web上依旧有许多高价值数据，找准定位，利用爬虫提取出有价值的数据，能代替不少人力成本。

其次，本专题并没有教你如何去分布式，集群的处理数据管理，因为这些概念并不是爬虫独有的，它们是一种解决策略：如何将一个大问题分解为多个小问题。比如数据量太大需要分布处理，请求太多需要分布处理。不同场景下解决方案各有差异，但本质是也是换汤不换药。

本专题更多的是介绍怎么获取到网络数据，因为只有在能获取到数据的前提下，才有资格谈后面的事。

后话

在现实场景中，反爬虫策略往往是多种齐上，互相混合，这取决于网站公司的注重程度。

对于反爬虫策略，还有一些常规手段，比如封IP：限制单个IP在一定时间内的访问次数，超过后就禁止其访问。这并不难解决，类似于验证码，有专门的第三方平台提供优质代理IP资源，当然，也可以自己去获取此类资源，只是稍微麻烦点，稳定性也没有收费版本的高。

有些网站也会检查http请求头（如user-agent，reference等），解决方法也很简单，只需发送请求的时候手动设置好header即可。

关于反爬虫，未来的策略会越来越多，当我发现好的思路后会不定期更新本专题。如果你有好的建议或经历，也不妨提出来~

0 0