Natas Wargame Level 3 Writeup 与 robots.txt

从HTML的注释代码来看,“google无法搜索到这个页面” -> 说明该网站很可能设置了防爬虫机制:robots.txt

以下是robots.txt的介绍(来自维基百科):

---------------------------------------------------------------------------------

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛), 此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件 名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下 的robots.txt,或者使用robots元数据(Metadata,又稱元資料)。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符[1][2]

其他的影响搜索引擎的行为的方法包括使用robots元数据

<meta name="robots" content="noindex,nofollow" />

这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,而其他则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。

例子:

允许所有的机器人:

User-agent: *
Disallow:

另一写法

User-agent: *
Allow:/

仅允许特定的机器人:(name_spider用真实名字代替)

User-agent: name_spider
Allow:

拦截所有的机器人:

User-agent: *
Disallow: /

禁止所有机器人访问特定目录:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):

User-agent: BadBot
Disallow: /private/

禁止所有机器人访问特定文件类型[2]

User-agent: * Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$

另外还有一些扩展指令。

---------------------------------------------------------------------

于是访问根目录下的robots.txt文件:

得到禁止所有爬虫(spider,crawler)访问的目录s3cr3t/:

得到用户密码:

natas4:Z9tkRkWmpt9Qr7XrR5jWRkgOU901swEZ

总结:网站防止爬虫访问的目录或者文件可能含有敏感文件,这也是一个切入点。

时间: 2024-10-09 21:33:35

Natas Wargame Level 3 Writeup 与 robots.txt的相关文章

Natas Wargame Level 19 Writeup(猜测令牌,会话劫持)

根据题目提示,这个题跟上一个题差不多,但是会话编码不再是连续的了. 一开始我跟上一个题一样,不断输入'admin':'1' 并使headers里面没有cookie,从而根据返回的set-cookie判断会话编码的方式. 结果发现编码的大多数位都是一样的,只有4个位在变化,于是我以为这个题只是给编码空间用很多位打了个'掩护',其实空间还是很小的.变使用这四个位进行猜测,无果. 实际上在这种猜测规律的时候应该采取类似于fuzz的输入,如果输入不变的话是会有猜测错误的可能性的. 输入'admin':'

Natas Wargame Level 13 Writeup(文件上传漏洞,篡改file signature,Exif)

sourcecode核心代码: 1 <? 2 3 function genRandomString() { 4 $length = 10; 5 $characters = "0123456789abcdefghijklmnopqrstuvwxyz"; 6 $string = ""; 7 8 for ($p = 0; $p < $length; $p++) { 9 $string .= $characters[mt_rand(0, strlen($char

Natas Wargame Level 17 Writeup(Time-based Blind SQL Injection)

sourcecode核心代码: 1 <? 2 3 /* 4 CREATE TABLE `users` ( 5 `username` varchar(64) DEFAULT NULL, 6 `password` varchar(64) DEFAULT NULL 7 ); 8 */ 9 10 if(array_key_exists("username", $_REQUEST)) { 11 $link = mysql_connect('localhost', 'natas17', '&

Natas Wargame Level 2 Writeup 与目录泄露(强制访问)

注意到"files/pixel.png",flag可能隐藏在此图片中.但随后发现该图片仅仅是一个一像素的图标,"没有"意义--files/目录可能是可以访问的: 拿到flag:natas3:sJIJNW6ucpu6HPZ1ZAchaDtwd7oGrD14 总结:HTML/CSS/JS等客户端文件可能会泄露站长不想让客户端访问的目录,即该目录下即包含可访问文件又包含敏感文件,并且该目录没有进行权限认证(强制访问),形成一个切入点.

robots.txt的介绍和写作

目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用.本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录.所以下面这篇文章,就来介绍robots.txt的作用和写作 robots.txt基本介绍 robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问.哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件.当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots

django1.5添加robots.txt

方法一:(The best way) urlpatterns = patterns( (r’^robots\.txt$’, TemplateView.as_view(template_name=’robots.txt’, content_type=’text/plain’)), ) 其他: http://stackoverflow.com/questions/6867468/setting-up-mimetype-when-using-templateview-in-django

seo课程之robots.txt的格式

其实很多人刚刚开始从事seo的时候,根本就不知道什么是robots.txt,就算知道了也不懂得robots.txt的文件格式是什么,今天小编我就来和大家分享一下吧(本文来自于e良师益友网). "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optional space><value><optionalspace>

实例分析Robots.txt写法

题意:经典八数码问题 思路:HASH+BFS #include <iostream> #include <cstdio> #include <cstring> #include <algorithm> using namespace std; const int MAXN = 500000; const int size = 1000003; typedef int State[9]; char str[30]; int state[9],goal[9]={

关于robots.txt

做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的. 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围:如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面. 那我们应该怎样使用robots.txt呢? 第一: robots.tx