国外14亿泄露数据下载及还原

国外14亿泄露数据下载及还原

simeon

2018年6月10日freebuf发布了篇文章《14亿邮箱泄露密码明文信息查询网站惊现网络》(链接地址:http://www.freebuf.com/news/174410.html),声称其泄露的数据可以通过暗网网站(http://dumpedlqezarfife.onion.lu/)进行查询,后续通过网络获取其泄露文件的下载地址,历经千辛万苦,终于将数据下载到本地,通过研究,将其txt文件进行还原处理,并对其进行无效数据处理,去除空密码等操作。

1.1.1数据下载及分析

1.数据下载地址

(1)二进制未压缩41G磁力下载链接地址

magnet:?xt=urn:btih:7ffbcd8cee06aba2ce6561688cf68ce2addca0a3&dn=BreachCompilation&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80&tr=udp%3A%2F%2Ftracker.leechers-paradise.org%3A6969&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Fglotorrents.pw%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337

(2)二进制压缩11G磁力下载链接地址

magnet:?xt=urn:btih:09250e1953e5a7fefeaa6206e81d02e53b5b374a&dn=BreachCompilation.tar.bz2&tr=udp://tracker.leechers-paradise.org:6969/announce&tr=udp://tracker.opentrackr.org:1337/announce&tr=udp://tracker.pirateparty.gr:6969&tr=udp://tracker.coppersurfer.tk:6969/announce&tr=udp://tracker.zer0day.to:1337/announce

2.数据库内容

该集合数据库中包含从Bitcoin、Pastebin、LinkedIn、MySpace、Netflix、YouPorn、Last.FM、Zoosk、Badoo、RedBox以及游戏平台(Minecraft和Runescape等)泄漏的数据,以及Anti Public,Exploit.in泄漏的凭证列表

1.1.2数据分析及处理

1.对下载文件进行解压

对breachcompilation.txt.7z进行解压,解压后数据在data目录,它是按照字母进行排序的,在解压根目录存在一些脚本文件,如图1所示,原始文件解压后45G,后面我又对该文件进行压缩处理,节约空间。

图1解压文件

2.使用cat生成文件

使用cat * >alla.txt类似命令,对每一个文件夹进行处理,然后生成多个txt文件。

3.文件格式

通过notepad对该密码文件进行查看,发现数据为邮箱帐号及密码,使用“:”分隔数据字段。

4.创建数据库及表

(1)在mysql中创建数据库14yidata

(2)创建数据库表

alla表设置两个字段,email及password。

1.1.3数据库导入处理

1.将txt文件导入到数据库

(1)对a开头的数据进行处理

通过cat对a文件夹进行处理,共生成alla.txt、alla-l.txt及alla-n.txt三个文件夹,其中alla-l.txt及alla-n.txt是因为在a文件夹下存在子文件夹l及n。

(2)执行导入

在Navicat for MySQL中分别执行以下语句进行导入,如图2所示,导入成功后,会显示受影响的行,该数据表示导入了多少条数据。

LOAD DATA LOCAL INFILE "d:/ok/alla.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

LOAD DATA LOCAL INFILE "d:/ok/alla-l.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

LOAD DATA LOCAL INFILE "d:/ok/alla-n.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

图2导入数据

2.查询存在特殊字符邮箱数据并保存

在mysql中执行:select *  from alla  where email like '%;%'  and password >''查询后,将查询结果保存为alla-ok.txt文件,如图3所示,使用notepad打开alla-ok.txt文件,在其中可以看到存在特殊字符,将空格替换为“:”。

图3处理特殊字符数据

3.删除存在特殊字符“;”及有密码的数据

执行语句:delete   from alla  where email like '%;%' and password >'',如图4所示,将alla表中存在“;”和密码的数据进行清洗,也即删除掉,前面已经保存了数据(alla-ok.txt)。

图4删除特殊字符数据

4.查询空密码

在处理数据库中发现存在很多空密码,执行查询:select * from alla  where password='',执行后,如图5所示,显示共有292672条数据。

图5查询空密码

5.删除空密码

由于空密码没有什么用处,是废弃数据,需要进行删除处理,执行语句:

delete   from alla  where password='' ,如图6所示,删除292672条数据记录。

图6删除空密码数据

6.查询特殊字段“;”密码并导出文件

在导入的数据库表alla中,存在一些特殊字符,其email名称跟密码通过“;”进行分割,如图7所示,执行查询select *  from alla  where email like '%;%',这些数据不便于查询,需要进行处理。

图7查询特殊字符“;” 存在的数据

7.导出特殊字符“;” 存在的数据

在Navicat for MySQL查询处理完毕后,如图8所示,单击导出向导,根据其提示进行即可,将存在特殊字符的数据记录全部导出道d:\ok\ok\1.txt文件。

图8将所有特殊字符数据记录导出到1.txt文件

8.合并导出特殊字符和密码的字段表及后导出的密码表

(1)替换字符

使用notepad打开1.txt文件,查找目标“;”,将其替换为“:”,如图9所示,选择全部替换即可。

图9替换特殊字符记录

(2)合并数据

将alla-ok.txt中的数据复制到1.txt文件中。

8.去除行尾空白字符

前面进行查询及处理的数据存在空白字符,需要通过UltraEdit编辑器对1.txt文件去除行尾空白字符,单击“格式”-“删除行尾空白字符”即可,如图10所示。

图10去除行尾空白字符

9.重新导入特殊字符处理的表

将处理后的数据文件1.txt导入数据库,执行语句:

LOAD DATA LOCAL INFILE "D:/ok/ok/1.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

如图11所示,将存在问题的数据记录重新导入数据库中。

图11重新导入数据库中

10.将前面所有查询处理保存

将alla处理结果表进行重命名,例如alla_ok,按照顺序,对前面的查询处理进行编号,对后续数据进行处理。直至将所有数据处理完毕,对所有文件处理完毕后,实际数据数为1387009672条。

11.如果有兴趣可以利用14亿数据进行大数据学习

推荐一个对14亿数据的处理及分析站点:https://github.com/philipperemy/tensorflow-1.4-billion-password-analysis

1.1.5总结及探讨

1.文本文件导入数据库语句总结

很多时候泄露的数据为txt文件,需要对其进行处理,将txt文件中的数据导入数据库,方便进行查询等处理。

(1)将文本文件导入mysql数据库

LOAD DATA LOCAL INFILE "d:/ok/alla-n.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

(2)查询存在特殊字符及密码的数据,并保存

select *  from alla  where email like '%;%'  and password >''

(3)对上面的数据进行替换处理

空格替换成:

(4)删除存在特殊字母“;”及有密码的数据

delete   from alla  where email like '%;%' and password >''

(5)查询空密码

select * from alla  where password=''

(6)删除空密码

delete   from alla  where password=''

(7)查询特殊字段“;”密码并导出文件

select *  from alla  where email like '%;%'

(8)对导出文件进行替换处理“;”替换为“:”

(9)合并导出特殊字符和密码的字段表及后导出的密码表

(10)去除行尾空字段

(11)重新导入特殊字符处理的表

LOAD DATA LOCAL INFILE "D:/ok/ok/1.txt" INTO TABLE alla FIELDS TERMINATED BY ':';

2.数据库去重处理

在本次处理中未对数据进行去重处理,由于数据量比较大,进行去重处理后,感兴趣的朋友可以将所有txt文件cat成一个文件,使用sort进行去重处理。其命令为:

sort -u all.txt >allnew.txt

3.在线查询

互联网上有一些密码及邮箱在线查询网站:

https://pwdquery.xyz/:输入邮箱,隐藏部分的泄露密码

https://verify.4iq.com/:输入邮箱,自动将泄露密码发送到邮箱上

https://haveibeenpwned.com/Passwords:输入密码,确认是否泄露

参考文章:

https://shui.azurewebsites.net/2017/12/31/breachcompilation-1-4-billion-password/

原文地址:http://blog.51cto.com/simeon/2132619

时间: 2024-10-31 10:44:39

国外14亿泄露数据下载及还原的相关文章

【PPT&视频】《陈新河:万亿元大数据产业新生态》——央视网大数据名人讲堂之大数据产业系列

[PPT&视频]<陈新河:万亿元大数据产业新生态>--央视网大数据名人讲堂之大数据产业系列 原创 2016-07-16 陈新河 软件定义世界(SDX) 热门下载(点击标题即可阅读) ?[下载]2015中国数据分析师行业峰会精彩PPT下载(共计21个文件) 因微信限制,部分图不能显示出来,高清完整版全文请扫描二维码,见每篇文章底部专栏 <陈新河:万亿元大数据产业新生态>--央视网大数据名人讲堂之大数据产业系列 嘉宾介绍 陈新河   中关村大数据产业联盟副秘书长 Talking

把 14 亿中国人都拉到一个微信群在技术上能实现吗?

阅读本文大概需要 2.8 分钟. 作者:Max  来源:腾讯知乎官号 www.zhihu.com/question/293021546/answer/487157602 "最近,知乎上有一个非常热门的问题:"把 14 亿中国人民都拉到一个微信群里在技术上能实现吗?" 先说结论:也许可以实现,但你会什么都看不见. 根据 2017 年<微信数据报告>的公开数据 [参考 1] :2017 年 9 月,微信日均登陆 9.02 亿人,日均发送消息 380 亿次. 这意味着平

MySQL数据的备份还原及数据修复

在日常的生产环境中为什么要进行备份??备份可以使生产中的数据进行有效的灾难恢复:硬件故障.软件故障.自然灾害.误操作测试等数据丢失场景. 备份注意要点能容忍最多丢失多少数据恢复数据需要在多长时间内完成需要恢复哪些数据还原要点做还原测试,用于测试备份的可用性还原演练备份类型完全备份.不分备份完全备份:整个数据集部分备份:只备份数据子集,如部分库或表增量备份.差异备份增量备份:仅备份最近一次完全备份或增量备份(如果存在增量)以来变化的数据,备份较快,还原复杂差异备份:仅备份最近一次完全备份以来变化的

百亿级数据10万字段属性的秒级检索解决方案以及实现

课程下载地址: https://pan.baidu.com/s/1zr5riwZtdRgnVQRetQnG7A 提取码: 5xg8 平台型创业型公司,会有多个品类,像生活信息服务类网站的有:58同城,赶集网等等,他们的类别非常多,每个垂直领域都会分为很多类别,每 个类别下又分很多子类别,每个类别或者子类别的属性都不一样,像这么庞大的数据,字段属性可以达到10万级别,同时数据量可以达到百亿级别 ,很多异构数据的存储需求.基于这么庞大的数据,我们需要达到秒级查询. 那么我们该怎么设计呢?本课程讲手把

DEM数据下载及使用帮助

BIGEMAP等高线(高程)使用教程 BIGEMAP高程数据主要特点: 覆盖全球 (任意范围下载) 精度准确 等高线细腻效果好 高程矢量数据可编辑 支持AutoCAD/南方CASS (DXF.DWG.DAT) 支持三维(STL) (二维/三维多段线) 支持多格式转换 (kml/kmz/shp/dxf/txt等) 支持投影转换(Xi'an80,Beijing54,WGS84,CGCS2000) 支持公里网格 案例   等高线完美套合卫星影像教程 高程点数据转成南方CASS的DAT格式(教程) DE

转 MySQL 数据备份与还原

MySQL 数据备份与还原 原贴:http://www.cnblogs.com/kissdodog/p/4174421.html 一.数据备份 1.使用mysqldump命令备份 mysqldump命令将数据库中的数据备份成一个文本文件.表的结构和表中的数据将存储在生成的文本文件中. mysqldump命令的工作原理很简单.它先查出需要备份的表的结构,再在文本文件中生成一个CREATE语句.然后,将表中的所有记录转换成一条INSERT语句.然后通过这些语句,就能够创建表并插入数据. 1.备份一个

蔡先生论道大数据之四, 中国公司和国外公司在大数据应用上的区别

国内互联网企业大数据的布局虽然略迟于国外,但从规模和投入上不容小觑.国内外在此领域的建设基本同步,体现在以下三个方面:第一,国外.国内大型互联网企业对大数据布局都加大投入规模,不仅是物理存储设备和处理能力的建设,也加强了分析工具的开发与分析人才队伍建设:第二,它们都在思考如何用足.用好大数据,期待从数据中挖掘潜在的巨大价值,使其为企业自身.用户和第三方带来便利与收益:第三,它们赋予大数据在数据之外的意义,都将大数据作为企业向其他领域延伸.转型的机会. 但是,限于国内外互联网发展水平.视野和其他产

Unity数据下载

1 /* HttpRequestTest.cs 2 * 采用C#的WebClinet类下载数据,多线程,但需要在主线程里转成texture. 3 */ 4 using System; 5 using System.Text; 6 using System.Net; 7 using UnityEngine; 8 9 public enum RequestType 10 { 11 Text, 12 Image 13 } 14 15 public interface IHttpRequest 16 {

LocaSpaceViewer深度讲解(一)瓦片服务与数据下载

1.概述 LocaSpaceViewer有着成千上万的用户,是GIS领域饱受好评的一款绿色免费软件.也有很多功能只有少数GIS资深用户理解并且会用.本文以示例的方式来介绍瓦片服务和LocaSpaceViewer的数据下载. 2.瓦片服务 国内有很多地图厂商,都提供地图服务,常见的包括国家测绘局旗下的天地图提供全球14级地图服务,全国16-19基本地图服务,以及大家经常用的百度地图.高德地图.搜狗地图等等. 这些服务是怎么来的,我们又是怎么用的? 这里先来了解一下地图服务的类型. 2.1 瓦片服务