关于robots.txt

做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

那我们应该怎样使用robots.txt呢?

第一: robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

第二:必须遵循以下语法:

最简单的 robots.txt 文件使用三条规则:

:User-Agent: 适用下列规则的漫游器(比如百度(Baiduspider)、Google(Googlebot))

:Disallow: 要拦截的网页(可以和)

:Allow: 允许语法(Disallow结合起来使用)

接下来让我们看下实际应用。

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们可以写以下robots.txt内容:

User-agent: *

Disallow: /admin/ 后台管理文件

Disallow: /require/ 程序文件

Disallow: /attachment/ 附件

Disallow: /images/ 图片

Disallow: /data/ 数据库文件

Disallow: /template/ 模板文件

Disallow: /css/ 样式表文件

Disallow: /lang/ 编码文件

Disallow: /script/ 脚本文件

如果你想允许所有搜索引擎访问网站的所有部分

1、你可以建立一个空白的文本文档,命名为robots.txt

2、User-agent: *

Disallow:

3、User-agent: *

Allow: /

如果你想禁止所有搜索引擎访问网站的所有部分,把上面2中改成    Disallow: /    就可以了

如果你想禁止百度    User-agent: Baiduspider

如果你想禁止除Google外的一切搜索引擎

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

关于robots.txt,布布扣,bubuko.com

时间: 2024-11-08 19:24:15

关于robots.txt的相关文章

robots.txt的介绍和写作

目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文章,就来介绍robots.txt的作用和写作 robots.txt基本介绍 robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问.哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件.当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots

django1.5添加robots.txt

方法一:(The best way) urlpatterns = patterns( (r’^robots\.txt$’, TemplateView.as_view(template_name=’robots.txt’, content_type=’text/plain’)), ) 其他: http://stackoverflow.com/questions/6867468/setting-up-mimetype-when-using-templateview-in-django

seo课程之robots.txt的格式

其实很多人刚刚开始从事seo的时候,根本就不知道什么是robots.txt,就算知道了也不懂得robots.txt的文件格式是什么,今天小编我就来和大家分享一下吧(本文来自于e良师益友网). "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optional space><value><optionalspace>

实例分析Robots.txt写法

题意:经典八数码问题 思路:HASH+BFS #include <iostream> #include <cstdio> #include <cstring> #include <algorithm> using namespace std; const int MAXN = 500000; const int size = 1000003; typedef int State[9]; char str[30]; int state[9],goal[9]={

nginx下禁止访问robots.txt的设置方法

关于robots.txt文件:搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 访问,可以得知我们网站中存在/admin和/bbs,其中/admin是关于后台管理的目录,把这个路径轻易的暴漏显然是不太安全的,下面我们可以通过禁止访问.txt类型的文件来,增

robots.txt

robots.txt基本介绍 robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问.哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件.当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots文件.robots文件必须放置在一个网站的根目录下,而且文件名必须全部小写.我们做的网站肯定希望被收录,因为网站流量的一部分或者是大部分都是来自搜索,所以对网站来说是很重要的.问题是:我们有的网站内容不希望杯搜索到,那么怎么办呢?在这种情况下,我

robots.txt禁止搜索引擎收录

禁止搜索引擎收录的方法         一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如

网站robots.txt探测工具Parsero

robots.txt文件是网站根目录下的一个文本文件.robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.当搜索引擎访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt.如果存在,搜索引擎就会按照该文件中的内容来确定访问的范围:如果该文件不存在,则会够访问网站上所有没有被口令保护的所有页面. 网站为了防止搜索引擎访问一些重要的页面,会把其所在的目录放入robots.txt文件中.所以,探测该文件,也可以获取网站的重要信息.Kali Linux提供一个小工具Pars

web站点下robots.txt文件的书写与注意事项

Robots协议(爬虫协议)是国际互联网界通行的道德规范,一般是在一个web站点的根目录下写的robots.txt文件,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取,可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽:可以屏蔽站点的一些死链接.方便搜索引擎抓取网站内容:设置网站地图连接,方便引导蜘蛛爬取页面. 通常的写法格式如下: User-agent: *  #这里的*通配符代表搜索引擎种类,*就是匹配所有的蜘蛛 Allow: / Disallow: #以上2个都表