百度爬虫robots.txt文件规范
来源:互联网 发布:java.lang.nullpointer 编辑:程序博客网 时间:2024/04/30 09:59
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
"<field>:<optional space><value><optionalspace>"
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"*" 匹配0或多个任意字符
"$" 匹配行结束符。
最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。
原文更详细
- 百度爬虫robots.txt文件规范
- 爬虫中robots.txt
- Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件
- 什么是robots.txt文件?
- 什么是robots.txt文件
- robots.txt文件用法
- robots.txt 文件语法
- robots.txt文件基础知识
- robots.txt 文件详解
- seo robots.txt文件
- robots.txt文件
- 什么是robots.txt文件?
- 什么是robots.txt文件?
- 网站robots.txt文件
- 爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- 爬虫出现Forbidden by robots.txt
- 在Genymotion中安装apk报错:Failure [INSTALL_FAILED_NO_MATCHING_ABIS]
- 关于引用网络echarts.js报错的问题解决方法
- Python流程控制
- Exponential family form of Multivariate Gaussian Distribution
- linux下常用的系统工作命令
- 百度爬虫robots.txt文件规范
- time_t localtion
- 趣图:程序员头疼的 4 种类型,你 99% 中枪了
- 欢迎使用CSDN-markdown编辑器
- 实现幂等性的方案
- Ubuntu Makefile.txt
- 面向对象:一生很长,我在这里等你,你在哪?
- 【python网络爬虫一】爬虫工作原理
- 年薪 30W 和 60W,数据分析师的两道坎