robots.txt作用

来源：互联网发布：软件开发规范编辑：程序博客网时间：2024/04/29 08:06

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

以http://www.qq.com/robots.txt为例的格式作为说明：

User-agent: *

Disallow:

Sitemap: http://www.qq.com/sitemap_index.xml

User-agent：后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人

Disallow：后面为不允许访问的文件目录

Sitemap：后面为网站地图文件,搜索机器人根据该文件的链接地址进行爬取网站文件。

具体举例说明：

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问（下例中的BadBot）

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问（下例中的Crawler）

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

例1. 禁止所有搜索引擎访问网站的任何部分 　　下载该robots.txt文件User-agent: * 　　Disallow: /例2. 允许所有的robot访问　　(或者也可以建一个空文件 "/robots.txt")User-agent: *　　Disallow: 　　或者　　User-agent: *　　Allow: / 例3. 仅禁止Baiduspider访问您的网站User-agent: Baiduspider　　Disallow: /例4. 仅允许Baiduspider访问您的网站User-agent: Baiduspider　　Disallow: 　　User-agent: *　　Disallow: /例5. 禁止spider访问特定目录　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。User-agent: *　　Disallow: /cgi-bin/　　Disallow: /tmp/　　Disallow: /~joe/例6. 允许访问特定目录中的部分urlUser-agent: *　　Allow: /cgi-bin/see　　Allow: /tmp/hi　　Allow: /~joe/look　　Disallow: /cgi-bin/　　Disallow: /tmp/　　Disallow: /~joe/例7. 使用"*"限制访问url　　禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。User-agent: *　　Disallow: /cgi-bin/*.htm　　例8. 使用"$"限制访问url　　仅允许访问以".htm"为后缀的URL。User-agent: *　　Allow: .htm$　　Disallow: /例9. 禁止访问网站中所有的动态页面User-agent: *　　Disallow: /*?*例10. 禁止Baiduspider抓取网站上所有图片　　仅允许抓取网页，禁止抓取任何图片。User-agent: Baiduspider　　Disallow: .jpg$　　Disallow: .jpeg$　　Disallow: .gif$　　Disallow: .png$　　Disallow: .bmp$例11. 仅允许Baiduspider抓取网页和.gif格式图片　　允许抓取网页和gif格式图片，不允许抓取其他格式图片User-agent: Baiduspider　　Allow: .gif$　　Disallow: .jpg$　　Disallow: .jpeg$ 　　Disallow: .png$　　Disallow: .bmp$例12. 仅禁止Baiduspider抓取.jpg格式图片User-agent: Baiduspider　　Disallow: .jpg$