搜寻器会每隔一段时间会对你的网站进行搜寻和抓取, 以更新搜寻器的资料.
但是如何限制它们对你的网页进行抓取. 只要透过一个机械人 “robots.txt”. 这个档案可以限制搜寻器对你的网站进行抓取.
为何需要”robots.txt”?
例如: 你建立了一些私人网页不想外间可以搜寻. 又或你的公司网页有一些是专门为公司内部员工使用. 另外,
你网站内那些专门用作储存图像的档案夹.o expose the image folder too.
如何设置”robots.txt”?
只需将”robots.txt”上载至你网站的根目录.
如何建立”robots.txt”?
你可以利用文字编辑器(e.g. NotePad)建立一个档案并命名为”robots.txt”. 格式如下
User-agent: spiders_name_here
Disallow: filename_here
User-agent
你可以利用 * 作为万用符以阻档所有搜寻器. 你可以浏览http://www.robotstxt.org/wc/active/html/
选取User-agent 的名称.
Disallow
要阻档整个目录, 可以这样填写
Disallow: /directory_name/
要限制某一指定档案, 可以这样填写
Disallow: /filename
要限制多个指定档案, 你需要将它们写在不同行上
Disallow:/file1.htm
Disallow:/file2.htm