Google和百度都无法替代的10大深网搜索引擎

Google和百度都无法替代的10大深网搜索引擎

文章来自FREEBUF 3天前 1.2k浏览

数据库游戏开发

想免费获取内部独家PPT资料库?观看行业大牛直播?点击加入腾讯GAD游戏开发行业精英群156225479

当我们想要搜索某些内容时,我们第一个想到的就是打开Google、百度或必应这类的搜索引擎。但针对有些内容,却是这些常规搜索引擎无法获取到的,那就是隐藏在深网的内容。据不完全统计,深网的信息量为表层网络的500倍。那么,深网主要都包含了些什么内容呢?其实,深网主要包括的都是些,例如需要某些条件如注册、付费,才能访问的内容,如数据库和某些服务等。而常规搜索引擎通常只会对静态网页进行抓取,而对于这些存储在数据库中的内容,对其而言几乎是不可见的。其次,当我们使用Google时,Google还可能对我们的活动轨迹进行跟踪。这对于要求匿名的用户而言,也是不可接受的。

 

为什么Google搜索不到深网的内容?

这是因为所有的Deb网站(.onion)都是没有索引的,而正常的搜索引擎通常都是通过目标网页索引来获取内容的。因此对于没有索引的搜索结果则不会被Google所收录。此外,在搜索过程中还会和服务器建立连接,这样对我们的隐私和安全也带来了一定的隐患。

“据研究人员介绍,只有4%的互联网对公众可见,剩下的96%的网站和数据则隐藏在Deep web。”

此外,深网中还包含了许多非法内容,例如毒品,武器交易,高度成熟的黑客工具,色情,军事机密等。

robots文件

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件会告诉蜘蛛程序,在服务器上什么文件是可以被查看/禁止查看的。如果某些页面被设为不可查看,那么搜索引擎也是无法正常获取到的。

说了这么多,那么有没有既可以保证高度匿名性,又可以获取到深网内容的搜索引擎呢?下面,我将为大家推荐十款比Google,必应更加“强大”搜索引擎:

1. pipl

Pipl是一款为搜索网络上的人物信息而生的搜索引擎。不同于传统意义上的搜索引擎,Pipl是专为检索“深网”上的信息而设计的。Pipl的爬虫能够与可搜索的数据库打交道,从中提取个人信息、联系方式、成员名录、科学出版物、法院记录以及其它很多“深网”内容。

Pipl目前提供五种方式搜索方式搜索特定人物:名字、Email地址、用户名、电话号码以及还处于BETA版的商业搜索。

Pipl所关注的不仅仅是找到更多的结果,它还通过高级语言分析和排名算法将与你搜索关键词最相关最匹配的结果以简单的单页形式展示给你。

2. My Life

MyLife是一个全面的成年人资料数据库,可以根据姓名、年龄、邮编等信息来查询你想要找的人。

MyLife的服务可以通过整合Twitter、Facebook、LinkedIn、Friendster和Flickr等社交网站的数据,帮助用户在互联网上找人。MyLife用户是免费注册,但如果要使用单身搜索、查看谁在搜索自己等高级功能,用户就需要付费。

MYLIFE网站还推出了一个全新的个人关系管理系统(PRM),是一个基于浏览器的服务,让用户在同一个内容流里就能看到Facebook、Twitter和LinkedIn的订阅源并进行答复、“赞”、转推等操作。

3. Yippy

Yippy是一个将多个搜索引擎信息结合在一起,然后得出统计结果的集成化搜索引擎。如果你想检索暗网的信息,Yippy便是一个不错的工具。暗网因其存储在专用网络而被屏蔽难以发现,而Yippy提供的搜索结果将帮助你发现不被传统搜索引擎检索到的隐藏网站。

4. Surfwax

SurfWax是一个元搜索引擎,能限定最多返回结果条数和排序方法,检索速度一般。该搜索引擎有一个显著特点,即点击每条结果左边的“网址按钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置。可以把搜索结果和文件存储起来以备后用。此外,焦点字(FocusWords)功能提供搜索词在各种不同含义下的同义词/近义词、上位词、下位词的列表,辅助选择词语检索。

5. Way Back Machine

通过Wayback Machine可以搜索某一特定网站过去(从1996年到现在)的样子。实现对Web过去的存档要求一百太字节的存储空间,并包含一百亿个网页!网页存档起初是由Alexa项目的负责人收集的。你可以在你的电脑上安装一个提供网站信息和排名的工具栏。

在Wayback Machine网站上,你可以搜索和链接你喜欢的网站,看它们过去的样子,你会发现它们像时间“快照”一样保存着。例如,你可以看到whatis.com网站在1996年的样子,也可以看见它在1997年及以后的样子。

6. Google Scholar

GoogleScholar学术搜索专门在期刊论文、理论摘要及其他学术著作文献中进行搜索,内容从医学、物理学到经济学、计算机科学等等,横跨多个学术领域以及大量书籍和整个网络中的学术性的文章。它虽然不支持中文,但可以用拼音搜索国内学者在国际刊物上发表的文章。这个搜索引擎搜索国外的资料非常方便,输入一个学者的名字,就可以搜索出其全部在网上的文章,并且可以知道在哪个数据库,以及该篇文章被多少篇其它文章所引用,以及所引用文章的目录等等。同时该学者所著的书也都有显示,并告知该书被哪些图书馆所收藏,或其它可能获得的商业途径。

GoogleScholar的搜索结果可以过滤掉普通搜索结果中的大量垃圾信息,排列出文章的不同版本以及被其他文章所引用的次数,还可以通过引用链接方便的找到与搜索结果关联的其它相关学术资料,对于学生、学者以及其他需要经常查阅学术文章的人来说是非常实用的。

7.DuckDuckgo

害怕信息被泄露,想要匿名访问互联网?DuckDuckGo将是你的首选!DuckDuckGo不会保存你的任何浏览信息、社交文件、邮件等,这也是跟Google最大的区别。DuckDuckGo的用户非常喜欢像「zero-click」这样的功能,快速无线下拉设计真的是懒人福利。更棒的是,DuckDuckGo并沒有像Google那么多广告,以及经常弹出广告等问题。DuckDuckGo甚至还配备了自己的Tor出口中继,帮助Tor用户提高搜索性能。

8. Fazzle

Fazzle是一个支持英文发文和荷兰文的元搜索引擎。它即可进行一般的网址搜索,又有一个主题目录可提供专题的资源搜索。其前身为SearchOnline著名元搜索引擎。

9. not Evil

不像其他的Tor搜索引擎,not Evil是一个不以营利为目的的搜索引擎。它是专门设计用于搜索暗网内容的搜索引擎,堪称暗网中的谷歌。此外,它的安全性体验度也做的非常的到位。既没有多余的广告推送,也不会对用户的搜索行为进行跟踪。再加上其不断更新的搜索算法,用户很容易就能通过它找到想要的内容或信息。值得一提的是,在此之前该项目被人们广泛的称为TorSearch。

10. Start Page

StartPage是由Ixquick推出的一个托管在美国和荷兰的搜索引擎服务,通过免费匿名代理提供谷歌搜索和图片搜索结果,号称是世界上最安全的保密型搜索引擎。该搜索引擎非常注重把对用户隐私的保护,它不会收集和分享任何用户的资料。

在Startpage,Ixquick的隐私与谷歌的搜索结果紧密相连。你可以放心使用这些来自世界上最受欢迎的搜索引擎搜索的结果,并受到Ixquick的隐私保护,这是世界上最大的私有搜索引擎。并且还受到了第三方权威机构——欧洲的联盟隐私倡议机构EuroPriSe的认证。 2008年7月14日,Ixquick被授予第一个欧洲隐私认证。

时间: 2024-08-07 15:27:49

Google和百度都无法替代的10大深网搜索引擎的相关文章

每个程序员都该知道的10大编程格言

每个程序员都该知道的10大编程格言 编程格言1:无风不起浪 (There is no smoke without fire) 编程格言2:预防为主,治疗为辅(An ounce of prevention is worth a pound of cure:) 编程格言3:不要把鸡蛋都放在一个篮子(Don't put all your eggs in one basket) 编程格言4:种瓜得瓜,种豆得豆(As you sow,so shoul you reap) 编程格言5:欲速则不达(Great

盘点高端媒体都在用的10大写作机器人!

<华尔街邮报>写稿机器人--HeliografHeliograf从去年里约奥运会开始撰写一些新闻,主要通过人工智能技术快速生成一些简单的信息作为报道,并且在推特上发布.在之后的应用中,Heliograf还进行了升级,能用更加专业的评论语气和分析事情的思路来写稿,写出来的成品也更加贴近人类的水平. 纽约时报--写作机器人纽约时报机器人写作程序主要用于两大方面,一是将数据整理成新闻,二是为智能手机用户发送"即时新闻". 该软件每天早晨都会给用户发送大量最新的信息及预测. 美联社

每个程序员都该知道的10大编码原则

回顾我的职业生涯,我曾自己单枪匹马地干过,也和一些特别有才能的人一起共事过,曾解决过一些非常严重的技术难题,也见识过一些鼎鼎大名的技术公司.近期我和我的团队偶然聊起我的这些经历,谈论的成果是我们在编码时应该知道一些原则.这不是规矩,也不是指导方针.它们只是我在编写和运行代码时总结出来的一些需要注意的原则. 1.偏执 这一点与我而言几乎是天生的.我几乎是靠自学才成为了程序员. 我从不相信电脑,也不相信我刚刚修复的bug真的已经修复好了,总之我不相信任何东西.我甚至连自己都不相信.除非多次检验之后,

GOOGLE和百度的长域名

GOOGLE的变态域名:www.mamashuojiusuannizhucedeyumingzaichanggoogledounengsousuochulai.cn/中文拼音:“妈妈说就算你注册的域名再长GOOGLE都能搜索出来“ 然后百度也跟着注册了个:www.mamashuojiusuannizhucedeyumingzaichangbaidudounengsousuochulai.cn/中文拼音:“妈妈说就算你注册的域名再长百度都能搜索出来 可以登陆试试 登录一下,还真的就是google和

人人都能用的10条网站易用性技巧

1. 给你的logo添加替代文本 这样有两个好处:屏幕阅读器能识别logo图片代表的含义,图片未加载到时,也能告诉非视障用户那里是你的logo. 几种方法: <img src="logo.png" alt="前端界"> 或者,你用背景图来实现logo的话,也可以添加title属性来实现: <span title="前端界"></span> </code> 当然,链接+背景图的方式是最好的,但最好也加

编程开发必读书籍:每个Web开发人员都应该阅读的10本书[图]

编程开发必读书籍:每个Web开发人员都应该阅读的10本书[图]:当开发人员问我他们应该阅读哪些书籍的时候,我通常都是告诉他们:让你读的下去的书.许多开发人员会阅读其他人的代码,实际上你提升自己最好的途径就是阅读,你的读书效率越高,那么你在日常工作中的效率也会越高.本文我们将来讨论:每个Web开发人员都应该阅读的10本书:1.<与爱因斯坦月球漫步>为什么推荐一本记忆力训练相关的书籍呢?因为现在的绝大多数开发人员都没有想过要提高自己的记忆能力,结果全部依赖于移动设备,实际上,现如今的程序员很难在脱

PHP面试和PHP开发者都应掌握的10个问题 【兄弟连经验技巧】

问题 :1     MySQL里的存储引擎有什么不同,哪一个是默认的? 答案: 1    我们可以一下存储引擎: 1. MyISAM(MySQL的默认引擎. 每个MyISAM表是分为三个文件存储在硬盘上的.文件名称是以表明开始并且有一个扩展文件名来指示文件的类型. .frm 文件用来存储表的格式. The data file has an数据文件被存储在 .MYD (MYData) 文件中. 索引文件的后缀是.MYI.) 2. InnoDB(InnoDB是一种事务安全(兼容ACID)类型的存储引

C++开发者都应该使用的10个C++11特性

本文由 伯乐在线 - 治不好你我就不是兽医 翻译自 Marius Bancila.欢迎加入技术翻译小组.转载请参见文章末尾处的要求. [感谢冯上(@治不好你我就不是兽医 )的热心翻译.如果其他朋友也有不错的原创或译文,可以尝试推荐给伯乐在线.] 在C++11新标准中,语言本身和标准库都增加了很多新内容,本文只涉及了一些皮毛.不过我相信这些新特性当中有一些,应该成为所有C++开发者的常规装备.你也许看到过许多类似介绍各种C++11特性的文章.下面是我总结的,C++开发者都需要学习和使用的C++11

Tomcat环境配置(原创)只写了问题,其他正常的安装百度都有好多的

一.下载安装java JDK,注意安装的路径,我们需要进行环境变量的配置. 如果忘记了安装路径(把以下代码复试到记事本,然后改名字后缀为.bat),运行,就可以看到JDK的安装路径了 @echo off&setlocal enabledelayedexpansion for /f "tokens=1,* delims=path=" %%a in ('path')do ( for %%c in (%%b)do set "v=%%c !v!" for %%d i