网站下的robots
来源:互联网 发布:淘宝seo是什么意思 编辑:程序博客网 时间:2024/05/17 04:48
面试某软,被面试官问道:你做爬虫,知不知道很多网站下都有个robots文件?
答曰:不知。
于是面试官给我演示了一遍~
遂卒。首战惨败。
下来查了维基百科,基本了解robots。https://zh.wikipedia.org/wiki/Robots.txt
比如必应搜索www.bing.com的根目录下有这么一个文件:http://www.bing.com/robots.txt,其内容如下:
User-agent: msnbot-media Disallow: /Allow: /shopping/$Allow: /shopping$Allow: /th? User-agent: TwitterbotDisallow: User-agent: *Disallow: /account/Disallow: /bfp/searchDisallow: /bing-site-safetyDisallow: /blogs/search/Disallow: /entities/searchDisallow: /fd/Disallow: /historyDisallow: /hotels/search...
这个文件的作用是,告诉搜索引擎该域名下那些文件能够爬取,哪些不行。
下面摘自维基百科:
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符
转载请注明:康瑞部落 » 网站下的robots
0 0
- 网站下的robots
- SNS网站的ROBOTS.TXT
- 浅谈网站robots的写法
- 网站站长必须重视的robots.txt
- 修改robots对网站的影响
- 浅谈网站优化时robots的写法
- 常见博客网站的robots.txt
- 如何写网站的robots.txt和meta name robots的配置
- 网站robots.txt文件
- 如何使用 robots.txt 文件控制对网站的访问
- 用robots.txt禁止搜索引擎搜索你的网站内容
- robots.txt 不让搜索引擎收录网站的方法
- 我的网站robots.txt设置成禁止收录,怎么办
- WordPress网站的Robots协议应该怎么写
- 浅谈Robots.txt文件给网站带来的好处
- 论WordPress网站robots.txt的正确写法
- 网站的robots 文件写法 附自动生成工具网址
- robots.txt 不让搜索引擎收录网站的方法
- POJ 1236--Network of Schools【scc缩点构图 && 求scc入度为0的个数 && 求最少加几条边使图变成强联通】
- Window Hook 技术详解
- 砾阳软件Rion®-RCMS报表综合管理系统”能做什么
- Apache DS管理的JAVA实现
- hdu-2066 一个人的旅行(SPFA做法)
- 网站下的robots
- 在tomcat7中启用HTTPS的详细配置
- 战胜拖拉,。跳出“等死模式”----阿冬专栏
- LayoutInflater.inflate()方法的介绍
- 21Merge Two Sorted Lists
- Linux系统下Java程序的基本监控
- VC动态库和测试工程集成调试的方法
- Network
- R语言之多重共线性