让你秒懂apache禁止网络爬虫采集的方法
来源:互联网 发布:淘宝v3会员是什么级别 编辑:程序博客网 时间:2024/04/26 15:42
导读Apache是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩充,将Perl/Python等解释器编译到服务器中。同时Apache音译为阿帕奇,是北美印第安人的一个部落,叫阿帕奇族,在美国的西南部。也是一个基金会的名称、一种武装直升机等等。
Apache中禁止网络爬虫,之前设置了很多次的,但总是不起作用,原来是是写错了,不能写到Dirctory中,要写到Location中Apache中禁止网络爬虫,之前设置了很多次的,但总是不起作用,原来是写错了,不能写到Dirctory中,要写到Location中
<Location />SetEnvIfNoCase User-Agent "spider" bad_botBrowserMatchNoCase bingbot bad_botBrowserMatchNoCase Googlebot bad_botOrder Deny,Allow#下面是禁止soso的爬虫Deny from 124.115.4. 124.115.0. 64.69.34.135 216.240.136.125 218.15.197.69 155.69.160.99 58.60.13. 121.14.96. 58.60.14. 58.61.164. 202.108.7.209Deny from env=bad_bot</Location>
SetEnvIfNoCase User-Agent "spider" bad_bot
这是禁止了所有包含spider字符的爬虫。
如果要针对性的禁止爬虫,改成精确匹配的爬虫字符串,如果bingbot、Googlebot等等
本文转载自:http://www.linuxprobe.com/apache-network-collection.html
免费提供最新Linux技术教程书籍,为开源技术爱好者努力做得更多更好:http://www.linuxprobe.com/
0 0
- 让你秒懂apache禁止网络爬虫采集的方法
- 如何让你的Python爬虫采集得更快
- 让你秒懂的三级缓存
- 让你秒懂getter()与setter()方法!!!
- 网络爬虫的采集,处理,存储
- apache服务器查看网络爬虫记录的方法
- apache服务器查看网络爬虫记录的方法
- python网络爬虫系列教程——python网络数据爬虫误区,让你的爬虫更像人类
- 爬虫--网络数据采集
- 简单的解释,让你秒懂“最优化” 问题
- 一篇文让你秒懂CDN
- Discuz x2.5 论坛性能优化速度优化的方法 - 让你论坛秒开
- 网络爬虫采集数据几个问题
- 一段代码让你秒懂java方法到底是传值还是传地址
- 简单的图片采集器(网络爬虫原理)
- 禁止Apache显示目录的方法
- 禁止Apache显示目录索引的常见方法
- Apache禁止访问网站子目录的方法
- 单链表的基本操作(面试题)
- Linux—软件包管理
- MySQL优化三(InnoDB优化)
- mysql数据库zip版本的安装
- Spring源码
- 让你秒懂apache禁止网络爬虫采集的方法
- java基础 第四章 面向对象
- 如何在eclipse下查看jdk源码
- 1.1基本内置类型
- servlet+mysql+html用户登录界面
- Redis常用命令-List
- 好的用户界面-界面设计的一些技巧
- Python 爬虫入门(一) Python和常用库的安装
- 基于Spring Boot+jsoup+redis抓取CSDN每周干货的RESTFul爬虫