web站点下robots.txt文件的书写与注意事项

Robots协议(爬虫协议)是国际互联网界通行的道德规范,一般是在一个web站点的根目录下写的robots.txt文件,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取,可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

通常的写法格式如下:

User-agent: * 
#这里的*通配符代表搜索引擎种类,*就是匹配所有的蜘蛛
Allow: /
Disallow:
#以上2个都表示允许蜘蛛抓取所有文件
Allow: /test
#表示允许抓取test整个目录
Disallow: /
#站点根目录,表示禁止蜘蛛抓取站点
Disallow: /A/
#表是禁止爬取A目录下的所有目录
Allow: /A/
#表示允许爬取A目录下的所有目录
Disallow: /A/a.html
#表示禁止访问A目录下的a.html页面
Allow: /A/a.html
#表示仅允许访问A目录下的a.html页面
Disallow: /A/*.html
#表示禁止访问A目录下的所有".html"结尾的url,包括子目录
Disallow: /A/.html$
#表示禁止访问A目录下所有".html"为后缀的url
Allow: /A/.html$
#表示仅允许访问A目录下所有".html"为后缀的url
Disallow: /A/.jpg$
#表示禁止爬取A目录下的所有jpg图片
Allow: /A/.jpg$
#表示仅允许爬取A目录下的所有jpg图片
Disallow: /*?*
#禁止访问网站中所有包含问号 (?) 的url
Sitemap: domain.html
#告诉爬虫这个页面是网站地图,谷歌为xml格式,百度为html格式,留空表示无

基本就是这样的写法爬虫机器人就会遵守Robots协议,当然还有几个特殊的选项

Robot-version: Version 1.0
#用来指定使用的robot协议的版本号1.0
Crawl-delay: 5
#检索间隔5秒,留空表示无
Visit-time: 0100-1000
#允许1点到10点爬取,留空表示无
Request-rate: 40/1m 0100 - 0759
#允许在1:00到07:59之间访问,但是只能以每分钟40次的频率进行访问,留空表示无

除此之外还有几个注意事项,如果目录是敏感文件夹,如站点根目录下有admin文件夹(一般是站点的后台)那么一定要禁止爬虫,但是不能 Disallow: /admin/ 这样写,这样不仅没有用,还泄露信息,引起爬虫更猛烈的爬取,最好的办法就是改掉默认的文件夹名字,但是如果不能改目录结构的话,要Disallow: /ad 这样使用局部的名称写;还有如果根目录下有passwords.txt、admin.php这样的敏感文件也不能直接使用Disallow: passwords.txt Disallow: admin.php这样写,原理同前者,最好的办法是把这些敏感文件放在隔离的目录下,当然如果不能改变目录的结构的话,需要Disallow: .txt$ Disallow: .php$写

时间: 2024-10-03 23:01:17

web站点下robots.txt文件的书写与注意事项的相关文章

关于web站点下敏感文件.DS_Store

最近在使用nikto工具扫描公司的web站点收集漏洞时,发现一个漏洞是发现敏感文件.DS_Store,就去查阅资料看了下,原来在Unix系统中的DS_Store 是用来存储这个文件夹的显示属性的,其中大量的被使用的是Mac OS X系统中,在与Mac OS X系统文件交互的时候就会带上这些文件,而在web服务器中肯定不希望别人看见其中的信息.那么如果你的web服务器上带有.DS_Store文件,那就一定会有信息泄露的可能,这个漏洞可能平时被忽视,但是作为生产服务器上有.DS_Store文件是不允

搜索引擎蜘蛛及网站robots.txt文件详解[转载]

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜

robots.txt文件配置和使用方法详解

robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件. robots.txt文件是什么? robots.txt是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件. robots.txt文件有什么作用? 通过robots.txt

robots.txt 文件是什么? 如何获取

1.robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围:如果该文件不存在,那么搜索机器人就沿着链接抓取. 另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写. robots.txt写作语

robots.txt文件没错,为何总提示封禁

大家好,我的robots.txt文件没错,为何百度总提示封禁,哪位高人帮我看看原因,在此谢过. 我的站点www.haokda.com,robots.txt如下: ## robots.txt for PHPCMS v9#User-agent: * Disallow: /cachesDisallow: /phpcmsDisallow: /installDisallow: /phpsso_serverDisallow: /apiDisallow: /admin.php 这个问题非常纠结,找不出原因来,

robots.txt文件

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取.Robots.txt协议全称“网络爬虫排除标准”.一般情况下,该文件以一行或多行User-agent记录开始,后面再跟若干行Disallow记录. User-agent:该项的值用于描述搜索引擎robot的名字,robots.txt中至少有一条User-agent记录,如果该项的值为“ * ”,则该协议对任何搜索引擎有效. Disallow:robots.txt中至少有一条User-agent记录.该项的值

读取web应用下的资源文件(例如properties)

1 package gz.itcast.b_resource; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.util.Properties; 6 7 import javax.servlet.ServletException; 8 import javax.servlet.http.HttpServlet; 9 import javax.servlet.http.HttpServletRe

UNICODE环境下读写txt文件操作

内容转载自http://blog.sina.com.cn/s/blog_5d2bad130100t0x9.html UNICODE环境下读写txt文件操作 (2011-07-26 17:40:05) 标签: 杂谈 分类: MFC程序设计 自己动手整理了一下,写了几个函数,用于UNICODE环境下对txt文本文件的操作,针对txt文本的ANSIC编码格式,进行了字符编码格式的转换.***********************************************************

网站中robots.txt文件的格式

其实很多人刚刚开始从事网站建设工作的时候,根本就不知道什么是robots.txt,就算知道了也不懂得robots.txt的文件格式是什么,今天小编我就来和大家分享一下吧,本文来自于e良师益友网. "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optional space><value><optionalspace&g