設定 robots.txt (转载)
来源:互联网 发布:c语言流程图 编辑:程序博客网 时间:2024/05/02 00:54
主題:設定 robots.txt工具:Notepad實例:本站的 robots.txt
Disallow: {File位置}
Disallow: /tmp/
Disallow: /download/
Disallow: /etc.htm
Disallow: /index/work.html
Disallow: /
Disallow: /tmp/
User-agent: ArchitextSpider
Disallow: /tmp/
Disallow: /index/work.html
內容:
robots.txt 是用來告訴搜尋引擎哪些地方不可以拿去做全文檢索資料庫。
資源自動收集 (Robot) 是搜尋引擎中負責資料收集的軟體,又稱為 Spider、或Crawler。他可以自動在設定的期限內定時自各網站收集網頁資料,而且通常是由一些預定的起始網站開始遊歷其所連結的網站,如此反覆不斷 (recursive) 的串連收集。
步驟:
- 使用 Notepad 來設定 robots.txt
- 上載在網頁的最底部。
編碼:
robots.txt 樣本:
User-agent: {Spider名}Disallow: {File位置}
例:設定所有 robot 不能夠收集 /tmp/ 和 /download/ 目錄中的資料。
User-agent: *Disallow: /tmp/
Disallow: /download/
例:設定所有 robot 不能夠收集 etc.htm 和 /index/work.html 中的資料。
User-agent: *Disallow: /etc.htm
Disallow: /index/work.html
例:設定所有 robot 不能夠收集所有網頁資料。
User-agent: *Disallow: /
例:設定 Google 不能夠收集 /tmp/ 目錄中的資料。
User-agent: GooglebotDisallow: /tmp/
例:設定 Google 和 Excite 不能夠收集 /tmp/ 和 /index/work.html 目錄中的資料。
User-agent: GooglebotUser-agent: ArchitextSpider
Disallow: /tmp/
Disallow: /index/work.html
對應表:
搜尋引擎Robot 名稱AltaVista
Scooter
InfoseekInfoseek HotbotSlurp AOL SearchSlurp ExciteArchitextSpider GoogleGooglebot GotoSlurp LycosLycos MSNSlurp NetscapeGooglebot NorthernLightGulliver WebCrawlerArchitextSpider IwonSlurp FastFast DirectHitGrabber Yahoo Web PagesGooglebot Looksmart Web PagesSlurp
- 設定 robots.txt (转载)
- robots.txt。
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- Robots.txt指南
- Robots.txt指南
- robot脚本__获取当前弹出窗体标题的讨论
- LAMOST OCS-2.20系统和SSS-2.00系统通过验收
- 我的世界
- 无人职守时运行robot的设想
- 面试:“十大必考题”揭幕
- 設定 robots.txt (转载)
- 今天学.net写的例子
- 体现职业技巧:职场中必备的七个黄金句型
- 进制数换算
- 用php写的UBB代码,有要的兄弟拿去
- 防范和查杀ASP木马
- 阿江的WINDOWS服务器安全设置
- Windows 2003认证十大学习主题
- SQL Server 2005 数据库开发新架构(2005.11.22 来自:搜狐IT)