與搜尋器溝通的機械人 | 意高方案技術分享

搜尋器會每隔一段時間會對你的網站進行搜尋和抓取, 以更新搜尋器的資料.
但是如何限制它們對你的網頁進行抓取. 只要透過一個機械人 “robots.txt”. 這個檔案可以限制搜尋器對你的網站進行抓取.

為何需要”robots.txt”?
例如: 你建立了一些私人網頁不想外間可以搜尋. 又或你的公司網頁有一些是專門為公司內部員工使用. 另外,
你網站內那些專門用作儲存圖像的檔案夾.o expose the image folder too.

如何設置”robots.txt”?
只需將”robots.txt”上載至你網站的根目錄.

如何建立”robots.txt”?
你可以利用文字編輯器(e.g. NotePad)建立一個檔案並命名為”robots.txt”. 格式如下

User-agent: spiders_name_here
Disallow: filename_here

User-agent
你可以利用 * 作為萬用符以阻檔所有搜尋器. 你可以瀏覽http://www.robotstxt.org/wc/active/html/
選取User-agent 的名稱.

Disallow
要阻檔整個目錄, 可以這樣填寫

Disallow: /directory_name/

要限制某一指定檔案, 可以這樣填寫

Disallow: /filename

要限制多個指定檔案, 你需要將它們寫在不同行上

Disallow:/file1.htm
Disallow:/file2.htm

就是這樣簡單, 你就可以限制搜尋對你的網站進行搜尋抓取.