大数据时代不可能匿名

  大数据近几年一直很火,不过隐私也成了关注点。大数据会收集人们高度隐私的数据,比如医疗记录或购物记录,再通过“分离识别”程序来匿名。如此一来,人们就不用担心个人隐私泄露了。不过事情真那么简单吗?

大数据时代的匿名化并非100%

  普林斯顿的计算机科学家艾文德奈瑞 · 亚南,曾在2006年发表的一篇文章中称,在本该匿名的互联网电影数据中,Netflix用户的各种租借历史数据却能在交叉引用过程中被泄露。亚南登在7 月9日的一份报告中称,匿名化支持者们(认为匿名化可行的人)也许还没预感到当下大数据中的危险漏洞。

  不管是理论上还是实践中,匿名化的作用并不大。那些认为匿名化很安全的人,其实是在营造一种“伪安全感”,严重低估了那些数据骇客的威胁力,他们很有可能从大数据中窃取到个人信息。

  个人地理位置数据并未被隐藏

  一份2013年的报告称,从人们的手机中收集到的庞大数据组中看来,95%的手机用户能被监测到,因为他们在网上总会留下登录痕迹,实时照片分享信息。匿名化专家们会坦白地告诉你,根本没办法隐藏用户的地理位置信息。

数据库防线多么脆弱,专家也无法预知

  在一份11万3千名病人的医疗记录案例研究中,匿名处理专家埃阿曼估计,不到1%的病人数据能做到再识别。但,亚南估计超过12%的病人数据能被锁定。袭击者要在数据库中锁定目标数据,简直是轻而易举。

匿名化很难,而数据再识别可永久

  数据匿名化过程充满挑战,也容易发生错误。在近期发表纽约市一亿七千三百万组有关的士的数据中,包括司机都可能被重新识别出来,因为在驾照上使用的数据散列法(一种将字符组成的字符串转换为固定长度的数值或索引值的方法)也是粗制滥造的。

  如果某人的匿名数据被公开,那么会一直存在于网上,不会消除。这比起某公司或某应用软件数据被入侵要严重的多了 。当一家公司的数据库被入侵了,只需要做好安全工作:修复数据漏洞,警报通知各用户,一切照常进行。 但是,这不代表我们要放弃使用数据,只需放弃被泄露的数据账号即可。

  在一份11万3千名病人的医疗记录案例研究中,匿名处理专家埃阿曼估计,不到1%的病人数据能做到再识别。但,亚南估计超过12%的病人数据能被锁定。袭击者要在数据库中锁定目标数据,简直是轻而易举。

  数据匿名化过程充满挑战,也容易发生错误。在近期发表纽约市一亿七千三百万组有关的士的数据中,包括司机都可能被重新识别出来,因为在驾照上使用的数据散列法(一种将字符组成的字符串转换为固定长度的数值或索引值的方法)也是粗制滥造的。

  如果某人的匿名数据被公开,那么会一直存在于网上,不会消除。这比起某公司或某应用软件数据被入侵要严重的多了 。当一家公司的数据库被入侵了,只需要做好安全工作:修复数据漏洞,警报通知各用户,一切照常进行。 但是,这不代表我们要放弃使用数据,只需放弃被泄露的数据账号即可。

  那么,我们要不要砸碎手机,放弃医疗(医疗数据泄露),直接隐居山林呢?但埃阿曼教授却不太认同,他极力支持匿名化技术,并表示:“亚南称超过 12%的病人数据能被锁定,但他并没有对单个病人的数据进行再识别。如果亚南是再识别技术领域的引领者,那么匿名化是非常可行的。”

  这对我们这些处在大数据时代中的人来说,是一个大好消息。但是,大数据匿名化没有崩盘,不代表匿名化技术坚不可摧。

时间: 2024-11-15 22:33:46

大数据时代不可能匿名的相关文章

柯南君:看大数据时代下的IT架构(6)消息队列之RabbitMQ--案例(Publish/Subscribe起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> <柯南君:看大数据时代下的IT架构(5)消息队列之Rab

大数据时代—— 一个创造超级竞争力企业的时代

这是一个快速发展的时代,随着互联网的普及,数据成指数倍增长,相同类型的企业也如雨后春笋般越来越多!那么如何在这个快速发展的时代,脱颖而出,把握时代的脉搏呢?答案就是:建立自己企业的大数据!提高企业的生存和竞争力,大数据无疑是一把利剑,通过数据分析,不仅可以让你知己知彼,更可以让自己的企业决胜千里之外,使企业在与同行竞争中,更具竞争力的一大利器,用的好,甚至能碾压竞争对手.大数据近年的崛起和发展已经初现其巨大的作用,据分析拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞

大数据时代下的生活

最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据.有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情. 虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书. 刚刚看完<大数据时代>这本书,感觉收获也蛮多的.习惯性的整理了一下书籍的思维导图 这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的. 个人吐槽 就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重

大数据时代的“透明人” 好莱坞艳照门背后的云隐私

好莱坞艳照门背后的云隐私 如今“修电脑才可能泄露艳照”的时代已然过去了,现在的新名词是“云艳照”.从陈冠希开始,中国网友某种程度上是第一次熟知了艳照,而这一次,数十位好莱 坞一线女明星宽衣而来,让我们对大数据下的个人隐私问题再次产生忧虑,如果大数据作为一种技术,在未来统治了人们的工作和生活,那么我们在云端的隐私该如 何保护? 谁都可能是下一个泄露艳照的人 女星艳照是从哪儿泄露的? 涉事女星博文 就目前而言,讨论女星们为什么要拍这样的照片都是没有意义的,这个事情更值得细究的就是私人照片是怎么跑到公

大数据时代如何保障数据安全

继互联网.物联网.云计算.大数据之后,大数据已经成为信息技术领域的一个热点,大数据不仅带来了大的价值,而且还存在着大的安全问题,其中一个最著名的例子就是用户隐私数据的披露,传统的信息安全手段和管理机制已经跟不上大数据时代信息安全形势的发展,那么如何构建我国大数据时代独立可控的大数据发展路径,以保证大数据时代的信息安全呢? 大数据的蓬勃发展,使得业界对于大数据安全问题的关注度日渐提升.不久前,中国信息通信研究院发布<大数据安全白皮书>,指出了当前大数据发展面临的安全问题,同时对推进大数据安全技术

计算机网络管理基础服务安装+大数据时代的网络运维

使用yum方式完成服务安装 ___By Nemo(仅供参考) Notice:Apache 安装好之后,我又改回桥接模式用rpm安装了. 首先,让你的虚拟机上个网,所以需要把网卡设置成nat模式,在宿主机上先拨个号,设好后重启linux系统. 重启后,打开firefox,看是不是能上网.Ok,但nat模式默认的ip是动态分配的,咱们得按照老师的要求把设成你静态的学生牌号.所以咱们得这么设一下!应该通过vmware虚拟机中-->Edit(编 缉)-->Virtual Net Editor(虚拟网络

读&lt;&lt;大数据时代&gt;&gt;的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是

当不再炒作大数据的时候,大数据时代就真的来了

从2015年开始,大数据就已经被移出了Gartner的新兴技术炒作曲线."Big Data"(大数据)一词最早于2011年8月出现在Gartner新兴技术炒作曲线中,当时Gartner预计大数据技术需要2年到5年才能进入企业的实际生产型应用中.从那以后,大数据就迅速被市场热炒,最终在2015年彻底在Gartner新兴技术炒作曲线中消失. 进入2016年,大数据已经进入了实际的企业生产应用,在切实推动企业向数字化转型.另一家市场调查公司IDC则强调,在未来5年中,全球的数据驱动型企业将获

大数据时代新闻采编人员职业能力培训

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/ 据统计,到2013年,全世界储存的信息如果记录在光盘上,再把这些光盘叠加起来,高度等于从地球到月球的距离.美国互联网数据中心指出,目前世界 上90%以上的数据是近几年才产生的.互联网上的数据每年将增加50%,每两年翻一番.因此有学者认为,人类进入了大数据时代.一般意义上,大数据是指无 法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理.处理和服务的数据集合