网站优化中Robots协议的原则标签及其他属性
发布时间:2019/4/17 16:45:11
一、原则
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
二、标签
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
1.index指令告诉搜索机器人抓取该页面;
2.follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
3.Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。
三、其他属性
1. Robot-version: 用来指定robot协议的版本号
例子: Robot-version: Version 2.0
2.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。
3. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.
例子: Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问
4. Request-rate: 用来限制URL的读取频率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问