程序博客网 > 软件编程用什么语言

scrapy 避免被禁止(ban)

来源：互联网发布：软件编程用什么语言编辑：程序博客网时间：2024/04/29 08:19

http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/practices.html

http://www.2cto.com/os/201406/312688.html

http://www.cnblogs.com/FengYan/archive/2012/07/31/2614335.html

避免被禁止(ban)

有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。与这些规则打交道并不容易，需要技巧，有时候也需要些特别的基础。如果有疑问请考虑联系商业支持。

下面是些处理这些站点的建议(tips):

使用user agent池，轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)
禁止cookies(参考 COOKIES_ENABLED)，有些站点会使用cookies来发现爬虫的轨迹。
设置下载延迟(2或更高)。参考 DOWNLOAD_DELAY 设置。
如果可行，使用 Google cache 来爬取数据，而不是直接访问站点。
使用IP池。例如免费的 Tor项目或付费服务(ProxyMesh)。
使用高度分布式的下载器(downloader)来绕过禁止(ban)，您就只需要专注分析处理页面。这样的例子有: Crawlera

如果您仍然无法避免被ban，考虑联系商业支持.

0 0

软件编程用什么语言

软件编程用什么语言

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子诗经名句名句摘抄道德经名句咏雪名句经典名句咏雪的名句诚信名句苏轼名句名句经典英语名句诗词名句网读书名句学习名句格言名句韩愈名句中秋名句杜牧名句时间名句书中名句陆游名句世界名句文言名句朱熹名句声声慢名句唯美名句好的名句杜甫名句茶经名句文明名句数学名句海子名句书论名句毅力名句竹的名句喝酒名句质量名句采薇名句守时名句史记名句旭仔名句名句赏析