搜尋器會每隔一段時間會對你的網站進行搜尋和抓取, 以更新搜尋器的資料.
但是如何限制它們對你的網頁進行抓取. 只要透過一個機械人 “robots.txt”. 這個檔案可以限制搜尋器對你的網站進行抓取.
為何需要”robots.txt”?
例如: 你建立了一些私人網頁不想外間可以搜尋. 又或你的公司網頁有一些是專門為公司內部員工使用. 另外,
你網站內那些專門用作儲存圖像的檔案夾.o expose the image folder too.
如何設置”robots.txt”?
只需將”robots.txt”上載至你網站的根目錄.
如何建立”robots.txt”?
你可以利用文字編輯器(e.g. NotePad)建立一個檔案並命名為”robots.txt”. 格式如下
User-agent: spiders_name_here
Disallow: filename_here
User-agent
你可以利用 * 作為萬用符以阻檔所有搜尋器. 你可以瀏覽http://www.robotstxt.org/wc/active/html/
選取User-agent 的名稱.
Disallow
要阻檔整個目錄, 可以這樣填寫
Disallow: /directory_name/
要限制某一指定檔案, 可以這樣填寫
Disallow: /filename
要限制多個指定檔案, 你需要將它們寫在不同行上
Disallow:/file1.htm
Disallow:/file2.htm