编写Robots.txt文件的一些要求
1.反斜杠的插入
成都创新互联-专业网站定制、快速模板网站建设、高性价比常熟网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式常熟网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖常熟地区。费用合理售后完善,十多年实体公司更值得信赖。
还是以Disallow:/a/b.html为例,在编写该语句的时候,如果忘记加入了反斜杠,则是对全部内容进行开放,这与编写语句的想法相悖,因为反斜杠的意义是根目录。
2.空格的出现
空格的出现就很好理解了,因为搜索引擎对于这个特殊符号的出现并不识别,它的加入只会使语句失去应有的效用。
第二:编写的几个问题
1.Robots.txt编写的顺序问题
举个最简单的例子,如果你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是Allow:/a/b.html Disallow:/a/ 还是Disallow:/a/ Allow:/a/b.html这样?
在Robots.txt编写规则中,它并不执行树状分析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不能访问,而我们最终的目的却是访问,这样一来,目标和实际就大相迳庭了。
2.Robots.txt编写的开放性问题
很多成都网站建设 的站长,尤其是新手站长对于Robots.txt的理解过于片面,他们认为既然Robots.txt可以规定蜘蛛的访问途径,那我们何必不开放,把所有文件都设置成可访问,这样一来网站的收录量不久立即上升了,其实问题远远没有我们想象的简单,大家都知道网站中一些固定的文件是不必传送给搜索引擎访问的,如果我们把网站“全方位开放”,后果就是加大网站服务器负载,降低访问速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访问的文件,我们直接Disallow掉就可以了。
一般情况下,网站不需要访问的文件有后台管理文件、程序脚本、附件、数据库文件、等等。
3.Robots.txt编写的重复性问题
我们每天都在写着原创内容,然后更新到自己的网站中,大家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,大家都知道搜索引擎很看重原创内容,对于原创内容的收录很快,相反,如果你的网站中充斥着大量的复制内容,那么我只能遗憾的告诉你,网站的前途一片渺茫。不过这也从另一个方面告诉我们要积极的利用robots文件禁止重复页面的代码,降低页面的重复度,但是在编写robots文件时一定要记得
在User-agent后加入某个搜索引擎,例如User-agent:baiduSpider Disallow:/,如果没有加入,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏蔽”。
4.Robots.txt编写的meta问题
在 Robots.txt编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现robots.txt文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果robots.txt文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。
分享题目:编写Robots.txt文件的一些要求
文章出自:http://hbruida.cn/article/scdcgd.html