robots.txt设置说明

robots.txt放置于网站的根目录,作用是引导各个搜索引擎如何抓取自己网站内的文件。利用robots.txt可以准确方便的对自己的网站进行SEO优化及控制。robots.txt文件包含以下元素:

#:注释标记,其后的内容仅供编写者参考,不对搜索引擎产生影响;

User-agent: 指定搜索引擎robot的名称,以使其按以下方式抓取网页。该参数至少需要有一条,允许有多条。
例1:User-agent: *  对所有搜索引擎robot起作用;
例2:User-agent:  Baiduspider  仅对百度蜘蛛起作用。

Disallow:阻止robot抓取目标页面,可以是单个文件名,也可以是目录名,允许有多条。
例1:Disallow:/doc 不允许抓取根目录下doc开头的文件及目录内的页面内容,包括/doc.html,/docabc.html,/doc/index.html等;
例2:Disallow:/doc/ 不允许抓取doc目录内的内容,但/doc.html,/docabc.html等页面是允许抓取的。

Allow:同Disallow使用方式相同,意义相反。

*:通配符,可以代表任意数量的字符。

$:通配符,表明该行结束。

搜索引擎robot名称:

  • google蜘蛛:googlebot
  • 百度蜘蛛:baiduspider
  • yahoo蜘蛛:slurp
  • alexa蜘蛛:ia_archiver
  • msn蜘蛛:msnbot
  • altavista蜘蛛:scooter
  • lycos蜘蛛:lycos_spider_(t-rex)
  • alltheweb蜘蛛:fast-webcrawler
  • inktomi蜘蛛: slurp
发表评论?

2 条评论。

发表评论


无觅相关文章插件,快速提升流量