反-反爬虫

来源:互联网 发布:淘宝复制链接怎么复制 编辑:程序博客网 时间:2024/04/29 01:26

说明

在实际项目中,能用httpclient处理的网页,我们都不会选择selenium或者类似的方案。由于反爬的技术升级,没有处理js能力的httpclient显得力不从心。在使用selenium的过程中,遇到很多问题:
phantomjs不需要图形化,它很省资源,但开发调试难度相对较高,而且具有致命缺点(它的运行特征太多)
firefox不够稳。爬虫本来意外就多,谁不想稳一点。
chromedriver性能比较好,稳定性也不错,目前有一个特征。

修改chromedriver

  • chromeDriver会创建cdc_asdjflasutopfhvcZLmcfl_元素用于各种操作。反爬通常会检测元素的名称,修改一下 ?
  • 如何编译?看另一篇blog吧。Ubuntu 16.04和windows10下chromedriver的编译
  • 直接下载编译后的driver吧(内含修改说明)

待补充