天下网吧 >> 网吧天地 >> 网吧技术 >> 网吧软件 >> 正文

设置robots.txt 避免搜索引擎泄密

2009-4-20不详佚名

搜索引擎都是使用专门的程序robot来自动索引内容,但是对于很多网站来说,都有不便公开的网页,诸如程序的管理界面、存放数据库或其他重要内容的目录等。robots.txt是一个放置于网站目录中的文本文件,我们可以通过该文件设置网站中不想被搜索引擎访问的部分。

知己知彼 详细了解robots.txt

robots.txt是一种存放于网站根目录下的ASCⅡ编码的文本文件,它通常告诉搜索引擎的网页抓取程序,网站中哪些内容可以被获取,以及哪些不能收录。搜索引擎在访问网站中的内容信息时,会首先检查网站的根目录下是否存在robots.txt文件,该文件通过记事本建立即可,放置在网站根目录下就可以了(如图)。

我们还可以在每个网页的头部使用“Robots Meta Tag”标签来提示搜索引擎可否抓取网页,该代码通常放置于HTML代码的HEAD区域中,它的格式如下所示:

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

robots.txt是搜索引擎间约定俗成的规则,国外的Google、雅虎、微软,国内的百度等搜索引擎遵守的都是robots.txt文件撰写标准。

小提示:因为一些服务器系统对大小写进行了区分,所以robots.txt文件名必须全部是小写,而且最好是放在网站根目录下。

合理撰写 隐藏网站内容

除了一些涉及到网站安全的文件以外,网站中的程序脚本、样式表等文件即使被搜索引擎索引,也不会增加网站的收录数量,还只会占用服务器带宽资源,因此需要在robots.txt文件里统一设置,不要让搜索引擎索引这些文件。

要撰写robots.txt文件,需要按照相应的规范来填写,百度就有专门的说明页面,上面有各类robots.txt文件用法的举例说明。

通常情况下,robots.txt文件由以下两个标记组成:

User-Agent: 表示需要拦截的搜索引擎robots名称,比如谷歌的就是googlebot,而百度搜索则是baiduspider。

Disallow: 表示不需要被索引的栏目或文件。

小提示:在撰写robots.txt文件的时候一定要非常仔细,如果误把所有的网站页面都屏蔽了,那可就得不偿失了。

举一反三 排除重复页面

现在大多数网站都是使用动态程序搭建,并且另外生成了静态页面供访客浏览,但是动态的页面仍然会被搜索引擎索引到。这样一来就会造成页面重复,让搜索引擎降低对网站的权重。

这时我们就可以通过robots.txt文件的设置,避免搜索引擎访问到动态页面,以保证这些网页不会被视为重复的内容。

本文来源:不详 作者:佚名

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 Email:support@txwb.com,系统开号,技术支持,服务联系微信:_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下
  • 本周热门
  • 本月热门
  • 阅读排行