设置robots.txt 避免搜索引擎泄密

2009-4-20不详佚名

【大中小】

搜索引擎都是使用专门的程序robot来自动索引内容，但是对于很多网站来说，都有不便公开的网页，诸如程序的管理界面、存放数据库或其他重要内容的目录等。robots.txt是一个放置于网站目录中的文本文件，我们可以通过该文件设置网站中不想被搜索引擎访问的部分。

知己知彼详细了解robots.txt

robots.txt是一种存放于网站根目录下的ASCⅡ编码的文本文件，它通常告诉搜索引擎的网页抓取程序，网站中哪些内容可以被获取，以及哪些不能收录。搜索引擎在访问网站中的内容信息时，会首先检查网站的根目录下是否存在robots.txt文件，该文件通过记事本建立即可，放置在网站根目录下就可以了(如图)。

我们还可以在每个网页的头部使用“Robots Meta Tag”标签来提示搜索引擎可否抓取网页，该代码通常放置于HTML代码的HEAD区域中，它的格式如下所示：

＜META NAME="ROBOTS" CONTENT="NOINDEX，NOFOLLOW"＞

robots.txt是搜索引擎间约定俗成的规则，国外的Google、雅虎、微软，国内的百度等搜索引擎遵守的都是robots.txt文件撰写标准。

小提示：因为一些服务器系统对大小写进行了区分，所以robots.txt文件名必须全部是小写，而且最好是放在网站根目录下。

合理撰写隐藏网站内容

除了一些涉及到网站安全的文件以外，网站中的程序脚本、样式表等文件即使被搜索引擎索引，也不会增加网站的收录数量，还只会占用服务器带宽资源，因此需要在robots.txt文件里统一设置，不要让搜索引擎索引这些文件。

要撰写robots.txt文件，需要按照相应的规范来填写，百度就有专门的说明页面，上面有各类robots.txt文件用法的举例说明。

通常情况下，robots.txt文件由以下两个标记组成：

User-Agent: 表示需要拦截的搜索引擎robots名称，比如谷歌的就是googlebot，而百度搜索则是baiduspider。

Disallow: 表示不需要被索引的栏目或文件。

小提示：在撰写robots.txt文件的时候一定要非常仔细，如果误把所有的网站页面都屏蔽了，那可就得不偿失了。

举一反三排除重复页面

现在大多数网站都是使用动态程序搭建，并且另外生成了静态页面供访客浏览，但是动态的页面仍然会被搜索引擎索引到。这样一来就会造成页面重复，让搜索引擎降低对网站的权重。

这时我们就可以通过robots.txt文件的设置，避免搜索引擎访问到动态页面，以保证这些网页不会被视为重复的内容。

本文来源：不详作者：佚名

上一篇文章：高清视频点播 QvodServer 1.3版正式发布

下一篇文章：技巧放送：三招提高FTP服务器安全性

精灵AI有什么亮点？为什么说聪明的网咖顾客都选择精灵AI？  简单几步快速在win8电脑设置网络SSID  Win7系统下如何修改Chrome缓存文件目录
网管必知的Win10系统设置项命令   LOL英雄联盟卡顿掉帧极有可能这样设置下就好了！  win10电脑连接两个显示器的设置方法
嘟嘟牛计费系统门店帐号设置说明   嘟嘟牛计费系统连锁漫游设置使用教程   嘟嘟牛计费系统用户级别设置说明
在Win10电脑同步Android手机通知的方法

聚合推荐

2022年网吧恢复营业时间网吧卫生网吧电脑配置开网吧网吧键盘网吧配置网吧GHOST ROS 网吧软件故障解决网众无盘网吧游戏菜单网吧活动网吧优化网吧精品网吧新手

声明

声明：本站所发表的文章、评论及图片仅代表作者本人观点，与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。 Email:support@txwb.com，系统开号，技术支持，服务联系微信：_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品，各位转载时请注明来源链接！

天下网吧·网吧天下