robots.txt 的作用
来源:互联网 发布:js关闭ie当前页面 编辑:程序博客网 时间:2024/05/01 23:01
1、Robots.txt文件是什么
大家弄清楚robots.txt的概念问题,带有txt后缀的文件是纯文本文档,robots是机器人的意思,也就是说,robots.txt文件是给搜索引擎蜘蛛看的纯文本文件。它告诉搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止抓取的。 搜索引擎蜘蛛来访问你的网站页面的,首先会查看网站根目录下是否有robots.txt文件,robots.txt文件就是起到这个作用的。
我们都知道淘宝网是屏蔽百度的,靠的就是robots.txt文件。文件是这样书写的:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
2. robots.txt的作用
通过设置屏蔽搜索引擎,使之不必要页面被收录,可以大大降低抓取页面所占用的网站带宽,大型网站尤为明显了。设置robots.txt文件可以指定某个搜索引擎不去索引不想被收录的URL,比如我们通过url重写将动态URL静态化为永久固定链接,就可以通过robots.txt设置权限,阻止某些搜索引擎索引那些动态网址,网站重复页面将减少,有利于优化。
3. robots.txt 怎么写
如robots.txt文件里写入以下代码:
User-agent: *
Disallow:
Allow: /
robots.txt写法中应该注意的几点。
1、robots.txt必须上传到网站根名录下,不能放在子目录下;
2、robots.txt,Disallow等必须注意大小写,不能变化;
3、User-agent,Disallow等后面的冒号必须是英文状态下的。
4、User-agent是表示搜索引擎(spider)的:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”;
5、Disallow:表示不允许搜索引擎访问和索引的目录;
6、Allow:指明允许spider访问和索引的目录,Allow: / 表示允许所有,和Disallow: 一样。
4. 特殊案例情况:robots.txt与子目录绑定的问题
如果forum用的是绑定子目录的方式,而实际使用的是一个二级域名如:forum.hcm602.cn,那么就要避免 www.cmhello.com/forum/这样的URL被搜索引擎收录,可以在主目录中的robots.txt中加入:
User-agent: *
Disallow: /forum/
Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。(除非你的子目录是一个绑定了域名的新网站)
- robots.txt 的作用
- robots.txt的作用
- robots.txt文件的作用
- robots.txt写法大全和robots.txt语法的作用
- robots.txt的作用与使用
- robots.txt作用&使用方法
- robots.txt作用
- robots.txt的作用是?如何正确的写robots.txt?
- ROBOTS.TXT语法和作用
- robots.txt作用和写法
- robots.txt的格式
- robots.txt在SEO中作用
- 如何写robots.txt?关于robots.txt的制作
- 关于robots.txt的书写
- 关于robots.txt 的用法
- robots.txt文件的奥秘
- SNS网站的ROBOTS.TXT
- robots.txt的详细写法
- [Linux]Vim命令
- 【UE4学习】12_(XML)插件制作
- iOS应用中图片尺寸的处理
- LeetCode OJ-36-Valid Sudoku
- AsyncTask的使用方法(异步任务的处理)
- robots.txt 的作用
- 解决ubuntu下缺少sasl.h的问题
- WebView详解
- KMP算法+NEXT数组
- android 系统服务大全
- 每次git push到远程库都要输入用户名和密码?
- 触发器、mysql权限问题、数据库的备份和恢复
- AndroidSDK Support自带夜间、日间模式切换详解
- linux_下IP、网关、DNS地址配置