搜索引擎都是使用专门的程序robot来自动索引内容,但是对于很多网站来说,都有不便公开的网页,诸如程序的管理界面、存放数据库或其他重要内容的目录等。robots.txt是一个放置于网站目录中的文本文件,我们可以通过该文件设置网站中不想被搜索引擎访问的部分。
知己知彼 详细了解robots.txt
robots.txt是一种存放于网站根目录下的ASCⅡ编码的文本文件,它通常告诉搜索引擎的网页抓取程序,网站中哪些内容可以被获取,以及哪些不能收录。搜索引擎在访问网站中的内容信息时,会首先检查网站的根目录下是否存在robots.txt文件,该文件通过记事本建立即可,放置在网站根目录下就可以了(如图)。
我们还可以在每个网页的头部使用“Robots Meta Tag”标签来提示搜索引擎可否抓取网页,该代码通常放置于HTML代码的HEAD区域中,它的格式如下所示:
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
robots.txt是搜索引擎间约定俗成的规则,国外的Google、雅虎、微软,国内的百度等搜索引擎遵守的都是robots.txt文件撰写标准。
小提示:因为一些服务器系统对大小写进行了区分,所以robots.txt文件名必须全部是小写,而且最好是放在网站根目录下。
合理撰写 隐藏网站内容
除了一些涉及到网站安全的文件以外,网站中的程序脚本、样式表等文件即使被搜索引擎索引,也不会增加网站的收录数量,还只会占用服务器带宽资源,因此需要在robots.txt文件里统一设置,不要让搜索引擎索引这些文件。
要撰写robots.txt文件,需要按照相应的规范来填写,百度就有专门的说明页面,上面有各类robots.txt文件用法的举例说明。
通常情况下,robots.txt文件由以下两个标记组成:
User-Agent: 表示需要拦截的搜索引擎robots名称,比如谷歌的就是googlebot,而百度搜索则是baiduspider。
Disallow: 表示不需要被索引的栏目或文件。
小提示:在撰写robots.txt文件的时候一定要非常仔细,如果误把所有的网站页面都屏蔽了,那可就得不偿失了。
举一反三 排除重复页面
现在大多数网站都是使用动态程序搭建,并且另外生成了静态页面供访客浏览,但是动态的页面仍然会被搜索引擎索引到。这样一来就会造成页面重复,让搜索引擎降低对网站的权重。
这时我们就可以通过robots.txt文件的设置,避免搜索引擎访问到动态页面,以保证这些网页不会被视为重复的内容。
本文来源:不详 作者:佚名