robots.txt放置于网站的根目录,作用是引导各个搜索引擎如何抓取自己网站内的文件。利用robots.txt可以准确方便的对自己的网站进行SEO优化及控制。robots.txt文件包含以下元素:
#:注释标记,其后的内容仅供编写者参考,不对搜索引擎产生影响;
User-agent: 指定搜索引擎robot的名称,以使其按以下方式抓取网页。该参数至少需要有一条,允许有多条。
例1:User-agent: * 对所有搜索引擎robot起作用;
例2:User-agent: Baiduspider 仅对百度蜘蛛起作用。
Disallow:阻止robot抓取目标页面,可以是单个文件名,也可以是目录名,允许有多条。
例1:Disallow:/doc 不允许抓取根目录下doc开头的文件及目录内的页面内容,包括/doc.html,/docabc.html,/doc/index.html等;
例2:Disallow:/doc/ 不允许抓取doc目录内的内容,但/doc.html,/docabc.html等页面是允许抓取的。
Allow:同Disallow使用方式相同,意义相反。
*:通配符,可以代表任意数量的字符。
$:通配符,表明该行结束。
搜索引擎robot名称:
- google蜘蛛:googlebot
- 百度蜘蛛:baiduspider
- yahoo蜘蛛:slurp
- alexa蜘蛛:ia_archiver
- msn蜘蛛:msnbot
- altavista蜘蛛:scooter
- lycos蜘蛛:lycos_spider_(t-rex)
- alltheweb蜘蛛:fast-webcrawler
- inktomi蜘蛛: slurp


写好ROBOTS还是挺有用的!
呵呵,正在学习中,Robots看起来简单,作用却不小呢。