首页 关于我们 中拓产品 新闻中心 知识交流 联系我们
  当前位置:合肥网站优化 -> 新闻中心
 
  公司新闻 行业动态 精选观点
 
优化网站里robots.txt文件的存放位置
关键词:网站 网络 设计 点击次数:1453次 更新时间:[2018/1/30] 【打印】 【关闭】
通常,网站的robots.txt文件放置在网站根目录下,便于搜索引擎爬虫第一时间抓取该文件。
  robots.txt文件格式
  1robots文件通常包含以一条或多条User-agent开始,后面加上若干条DisallowAllow
  2User-agent:用来描述搜索引擎robot的名字。
  3、如果存在多条User-agent记录说明有多个robot会受到"robots.txt"的限制,至少要有一条User-agent记录。
  4、如果User-agent的值设为*,则对任何robot均有效,且"User-agent:*"这样的记录只能有一条。
  5、如果有"User-agent:SomeBot"和若干DisallowAllow行,那么搜索引擎爬虫名为"SomeBot"只受到"User-agent:SomeBot"后面的 DisallowAllow行的限制。
  6Disallow:用来描述不希望被访问的一组URL
  7、这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。
  8、比如:"Disallow:/help"这条规则表示的是禁止robot访问/help.html/helpabc.html/help/index.html等。
  9、比如:"Disallow:/help/"这条规则表示的是允许robot访问/help.html/helpabc.html,不能访问/help/index.html
  10"Disallow:"说明允许robot访问该网站的所有urlrobots.txt文件中,至少要有一条Disallow记录。
  11、如果网站根目录下robots.txt不存在或者为空文件,则对于所有的搜索引擎爬虫来说,该网站都是开放的。
  12Allow:用来描述希望被访问的一组URL
  13、与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。
  14、比如:"Allow:/hibaidu"这条规则表示的是允许robot访问/hibaidu.htm/hibaiducom.html/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
  15、使用"*"and"$"Baiduspider支持使用通配符"*""$"来模糊匹配url("*" 匹配0或多个任意字符,"$" 匹配行结束符)
 
 
合肥网络公司中拓科技专业提供合肥企业网站优化、合肥企业网站制作等服务! 版权所有 中拓科技 合肥网站优化建设 皖ICP备11000144号
COPYRIGHT 2010-2017 WWW.ZHONG-T.COM 版权所有
合肥网站优化合肥网站制作就到合肥中拓,专业的合肥网络公司让每一个企业都拥有适合自己的互联网推广方案!