設定 robots.txt (转载)

来源：互联网发布：c语言流程图编辑：程序博客网时间：2024/05/02 00:54

主題：設定 robots.txt

工具：Notepad

實例：本站的 robots.txt

內容：

robots.txt 是用來告訴搜尋引擎哪些地方不可以拿去做全文檢索資料庫。

資源自動收集 (Robot) 是搜尋引擎中負責資料收集的軟體，又稱為 Spider、或Crawler。他可以自動在設定的期限內定時自各網站收集網頁資料，而且通常是由一些預定的起始網站開始遊歷其所連結的網站，如此反覆不斷 (recursive) 的串連收集。

步驟：

使用 Notepad 來設定 robots.txt
上載在網頁的最底部。

編碼：

robots.txt 樣本：

User-agent: {Spider名}
Disallow: {File位置}

例：設定所有 robot 不能夠收集 /tmp/ 和 /download/ 目錄中的資料。

User-agent: *
Disallow: /tmp/
Disallow: /download/

例：設定所有 robot 不能夠收集 etc.htm 和 /index/work.html 中的資料。

User-agent: *
Disallow: /etc.htm
Disallow: /index/work.html

例：設定所有 robot 不能夠收集所有網頁資料。

User-agent: *
Disallow: /

例：設定 Google 不能夠收集 /tmp/ 目錄中的資料。

User-agent: Googlebot
Disallow: /tmp/

例：設定 Google 和 Excite 不能夠收集 /tmp/ 和 /index/work.html 目錄中的資料。

User-agent: Googlebot
User-agent: ArchitextSpider
Disallow: /tmp/
Disallow: /index/work.html

對應表：

搜尋引擎Robot 名稱

AltaVista

Scooter

InfoseekInfoseek HotbotSlurp AOL SearchSlurp ExciteArchitextSpider GoogleGooglebot GotoSlurp LycosLycos MSNSlurp NetscapeGooglebot NorthernLightGulliver WebCrawlerArchitextSpider IwonSlurp FastFast DirectHitGrabber Yahoo Web PagesGooglebot Looksmart Web PagesSlurp