robots.txt防止向黑客泄露网站的后台和隐私

为了不让搜索引擎索引网站的后台页面或其它隐私页面，我们将这些路径在robots.txt文件中禁用了。但矛盾的是，robots.txt文件任何人都可以访问，包括黑客。为了禁止搜索引擎，我们把隐私泄露给了黑客。
robots.txt干什么的？

robots.txt基本上每个网站都用，而且放到了网站的根目录下，任何人都可以直接输入路径打开并查看里面的内容，如http://www.cnblogs.com/robots.txt。该文件用于告诉搜索引擎，哪些页面可以去抓取，哪些页面不要抓取。

robots.txt如何使用

在网站根目录下创建一个文件，取名robots.txt，文件名必须是这个！然后设置里面的规则。
比如我有一个博客，我要设置不允许任何搜索引擎收录本站，robots.txt中就设置如下两行即可。

User-agent: *
Disallow: /

如果要限制不让搜索引擎访问我们网站后台admin目录，则规则改为：

User-agent: *
Disallow: /admin/

robots.txt更多的使用规则，不在本文的讨论范围之内。

robots.txt防黑客

像上面的例子中，我们为了让搜索引擎不要收录admin页面而在robots.txt里面做了限制规则。但是这个robots.txt页面，谁都可以看，于是黑客就可以比较清楚的了解网站的结构，比如admin目录、include目录等等。

有没有办法既可以使用robots.txt的屏蔽搜索引擎访问的功能，又不泄露后台地址和隐私目录的办法呢？
有，那就是使用星号（*）作为通配符。举例如下：

User-agent:
Disallow: /a*/

这个设置，禁止所有的搜索引擎索引根目录下a开头的目录。当然如果你后台的目录是admin，还是有可以被人猜到，但如果你再把admin改为adoit呢？还有会谁能知道？

总结下，为了不让搜索引擎索引网站的后台目录或其它隐私目录，我们将这些路径在robots.txt文件中禁用了。又为了让robots.txt中的内容不泄露网站的后台和隐私，我们使用星号(*)来修改设置项。最后为了不让黑客猜到真实的路径，我们可以把这些敏感的目录进行非常规的重命名。

好了，关于robots.txt与网站隐私，就介绍这么多，希望对大家有帮助，谢谢！

时间： 2024-12-13 13:24:26

网站robots.txt探测工具Parsero