关于google指令
关于google指令
google为我们准备好了的“指令”(directive),可以最大限度帮助我们完成每一次搜索。这些指令其实就是一个个关键字,能让我们从google的索引文件中更准确地提取信息。
如果我们希望google只显示来自于某个目标域名的相关搜索结果。这个时候,就需要用到“site:”指令。使用这条指令,google不但会返回于关键字相关的网页,而且只显示来自于某个具体网站的搜索结果。
想要正确使用google指令,需要输入三项内容:
- 你想要用的指令
- 半角冒号(:)
- 指令中要用到的具体的内容
输入这三项内容之后,接下来就和普通搜索没什么两样。要使用“site:”指令,需要在google搜索框中输入:
site:domain term(s) to search
注意指令/半角冒号和域名三者之间没有空格。如在达科他州立大学(Dakota State University)官方网站上搜索与Pat Engebretson有关的信息:
pat engebretson site:dsu.edu
使用这条指令可以避免搜出一大堆不加区分的内容,可以将注意力集中到有用的搜索结果上。
注意:
google不区分大小写,所以不管输入“pat”,“Pat”还是“PAT”,结果都是一样。
另外,google的“intitle:”和“allintitle:”指令也很好用。
“allintitle:”表示网页标题必须包含所有关键字才会出现在搜索结果里。
“intitle:”不用包含全部关键字,只要包含任意一个关键字即可。
使用“allintitle:”指令执行google黑客攻击的经典例子是进行如下搜索:
allintitle:index of
执行该搜索,就能查看web服务器上的所有可用的索引目录列表。
如果想要搜索URL中包含某些特定字符的网站,可以使用”inurl:“指令。例如,如果执行下面这条命令,就有可能发现目标网站上许多有意思的页面:
inurl:admin
这条命令在发现目标网站的管理或设置页面方面极其有用。
提示:
搜索google的网页快照可能比搜索目标网站更有价值,因为这样做不但减少你在目标服务器上留下的痕迹,你的活动不容易受到跟踪,而且能有机会浏览原网站上已移除的网页和文件。只要是google爬虫抓取过的网页,都会在google网页快照中保存一个精简过的副本。重要的是要理解,这些网页快照不仅包含网站创建时所用到的代码,还会有爬虫抓取过程中发现的许多文件。这些文件的格式可能是PDF,也可能是word和excel等微软office文档文件或者文本文件等。
使用”cache:“指令就可以让google只显示网页快照里的信息。使用下面这条搜索命令就会显示网页快照里的Syngress主页:
cache:syngress.com
单击任何网址链接都会跳转到真实的网页,而不是快照版本的网页。如果你想浏览快照里的某些网页,就需要修改搜索命令。
使用”filetype:“指令可以搜索特定的文件扩展名,当你需要搜索目标网站上的特定类型文件时,这个指令就很有用。
例如,如果只是想搜索PDF文档,则可以执行下面这条命令:
filetype:pdf
用这个指令还能查找扩展名文.doc,xlsx,ppt,txt等。选择几乎是无限的,可以查找任意的文件类型。
想要获得更加强大的功能的话,可以在搜索时将多个指令搭配起来使用。例如,如果我们想找出达科他州立大学网站上所有的powerpoint演示文稿,可以在搜索框里输入以下命令:
site:dsu.edu filetype:ppt