大数据脱敏

简介

大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。本文首先分析了数据泄露可能带来的风险,然后详细介绍了数据脱敏技术的理论基础与常用算法,最后介绍了一个基于大数据平台的数据脱敏解决方案。

转自:https://zhuanlan.zhihu.com/p/20824603

隐私数据脱敏技术

通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:

  1. 可确切定位某个人的列,称为可识别列,如身份证号,地址以及姓名等。
  2. 单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究论文称,仅使用邮编号,生日和性别信息即可识别87%的美国人[3]。
  3. 包含用户敏感信息的列,如交易数额,疾病以及收入等。
  4. 其他不包含用户敏感信息的列。

所谓避免隐私数据泄露,是指避免使用数据的人员(数据分析师,BI工程师等)将某行数据识别为某个人的信息。数据脱敏技术通过对数据进行脱敏,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2(转换后)半识别列,#3敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。

隐私数据泄露类型

隐私数据泄露可以分为多种类型,根据不同的类型,通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,以及对应不同的数据脱敏算法对数据进行脱敏。一般来说,隐私数据泄露类型包括:

  1. 个人标识泄露。当数据使用人员通过任何方式确认数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严重,因为一旦发生个人标识泄露,数据使用人员就可以得到具体个人的敏感信息。
  2. 属性泄露,当数据使用人员根据其访问的数据表了解到某个人新的属性信息时,称为属性泄露。个人标识泄露肯定会导致属性泄露,但属性泄露也有可能单独发生。
  3. 成员关系泄露。当数据使用人员可以确认某个人的数据存在于数据表中时,称为成员关系泄露。成员关系泄露相对风险较小,个人标识泄露与属性泄露肯定意味着成员关系泄露,但成员关系泄露也有可能单独发生。

隐私数据泄露风险模型

将数据开放给数据分析人员,同时就引入了隐私数据泄露的风险。在限制隐私数据泄露风险在一定范围内的同时,最大化数据分析挖掘的潜力,是数据脱敏技术的最终目标。目前在隐私数据脱敏领域,有几个不同的模型可以用来从不同角度衡量数据可能存在的隐私数据泄露风险。

K-Anonymity

隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工(知道某个人的姓名,邮编,生日,性别等)或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值,并与大数据平台数据进行匹配,从而得到特定个人的敏感信息。如表一所示,如果攻击者知道某用户的邮编和年龄,就可以得到该用户的疾病敏感信息。为了避免这种情况的发生,通常需要对半标识列进行脱敏处理,如数据泛化等。数据泛化是将半标识列的数据替换为语义一致但更通用的数据,已上述数据为例,对邮编和年龄泛化后的数据如表二所示。

表1 原始病人信息

表2 3-Anonymity病人信息

经过泛化后,有多条纪录的半标识列属性值相同,所有半标识列属性值相同的行的集合被称为相等集。例如,表二中1,2,3行是一个相等集,4,5,6行也是一个相等集。Sama- rati and Sweeney[4]引入了K-Anonymity用于衡量个人标识泄露的风险。 K-Anonymity定义如下:

K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不小于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。

图二中的数据是一个3-Anonymity的数据集。作为一个衡量隐私数据泄露风险的指标,K-Anonymity可用于衡量个人标识泄露的风险,理论上来说,对于K-Anonymity数据集,对于任意纪录,攻击者只有1/k的概率将该纪录与具体用户关联。

L-Diversity

K-Anonymity可用于保护个人标识泄露的风险,但是无法保护属性泄露的风险。对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

  1. 同质属性攻击。对于图二半标识列泛化后的数据集,假如攻击者知道Bob邮编为47677,年龄为29,则Bob一定对应于前面三条记录,从而可以确定Bob有心脏病。
  2. 背景知识攻击。对于图二半标识列泛化后的数据集,假如攻击者知道Alice邮编为47673,年龄为36,则Alice一定对应于后面三条记录,如果攻击者知道Alice患有心脏病的几率很小,则能判断Alice很有可能患有癌症。

Machanavajjhala et al. [5] 引入了L-Diversity用于衡量属性泄露的风险,L-Diversity定义如下:

如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个"合适"值,则称该相等集是满足L-Deversity。如果数据集中所有相等集都满足L-Deversity,则称该数据集满足L-Deversity。

所谓L个“合适”值,最简单的理解就是L个不同值。基于图二的数据通过插入干扰纪录,一个3-Anonymity 2-Diversity的数据集如表三所示:

表3 3-Anonymity 2-Diversity 病人信息

相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了属性数据泄露的风险。对于满足L-Diversity的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。一般来说是通过插入干扰数据构造符合L-Diversity标准的数据集,但是同数据泛化一样,插入干扰数据也会导致表级别的信息丢失。同时L-Diversity标准也有不足之处。

  1. L-Diversity标准有可能很难或是没有必要实现。

    例如,对于HIV的测试数据,测试结果列可能为阴性或是阳性。对于10000条记录,可能99%的记录都是阴性的,只有1%是阳性的。对于用户来说两种不同的测试结果敏感程度也是不同的,测试结果为阴性的用户可能不介意其他人看到他的测试结果,但是测试结果为阳性的用户可能更希望对别人保密。为了生成2-Deversity的测试数据集,会丢失大量的信息,降低数据分析挖掘的价值。

  2. L-Diversity标准无法防御特定类型的属性数据泄露。
    • 倾斜攻击

      如果敏感属性分布存在倾斜,L-Diversity标准很有可能无法抵御属性数据泄露。继续以HIV测试数据为例,假如构造的数据集对于任意相等类测试结果都包含阴性与阳性,且阴性数量与阳性相同,该数据集肯定满足2-Diversity。按照真实测试记录的分布,对于任意个人,攻击者只能判断其有1%的可能测试结果为阳性。但是对于2-Diversity数据集,攻击者会判断每个人有50%的可能测试结果为阳性。

    • 相似性攻击

      如果相等类的敏感属性分布满足L-Diversity,但是属性值相似或是内聚,攻击者有可能从得到很重要的信息。例如对于表四所示,病人数据满足3-Diversity,攻击者如果了解Bob邮编为47677,年龄为29,则可以确认Bob的工资收入在3-5K之间,且能确认Bob得了胃病相关的病,因为前三条的病都和胃病相关。

表4 3-Diversity 病人信息

简单来说,对于L-Diversity相同的相等集,敏感属性值的分布信息对于保护属性泄露至关重要。L-Diversity只是用来衡量相等集的不同属性值数量,并没有衡量不同属性值的分布,所以其在衡量属性泄露风险上仍有不足之处。

T-Closeness

直观的来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量。假设攻击者在访问数据集之前已知的个人信息为B0,然后假设攻击者访问所有半标识列都已移除的数据集,Q为数据集敏感数据的分布信息,根据Q,攻击者更新后的个人信息为B1.最后攻击者访问脱敏后的数据集,由于知道用户的半标识列的信息,攻击者可以将某用户与某相等集联系在一起,通过该相等集的敏感数据分布信息P,攻击者更新后的个人信息为B2.

L-Diversity约束是通过约束P的diverisity属性,尽量减少B0和B2之间的信息量差距,差距越小,说明隐私信息泄露越少。T-Closeness约束则期望减少B1和B2之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。T-Closeness的定义如下:

如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness,则称该数据集满足T-Closeness.

T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护。

常见数据脱敏算法

K-Anonymity, L-Diversity和T-Closeness均依赖对半标识列进行数据变形处理,使得攻击者无法直接进行属性泄露攻击,常见的数据变形处理方式如下:

表5 常用数据变形操作

此外,K-Anonymity, L-Diversity和T-Closeness约束可能还需要生成干扰数据,敏感数据干扰项的生成策略与方法也是保证K-Anonymity, L-Diversity和T-Closeness的重要条件,在这里篇幅有限,就不过多介绍,请参考引用中的相关论文[4,5,6]。

大数据脱敏平台

用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,而是包括如下几个目标:

  1. 数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。
  2. 可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值。
  3. 可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。

大数据脱敏平台的设计方向一般包括静态大数据脱敏平台和动态大数据脱敏平台,所谓静态和动态之分,主要在于脱敏的时机不同。对于静态脱敏来说,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。大数据平台脱敏技术方案是一个非常有趣的课题,目前业界还没有看到有成熟的方案,鉴于其对数据安全和数据价值的作用,非常值得深入研究,希望以后可以继续以合适的方式分享我在这方面的研究与实践。

总结

针对于大数据平台对于数据脱敏的需求,本文分析了数据泄露可能带来的风险,介绍了数据脱敏技术的理论基础与实现方式,同时简单分析了大数据平台的隐私数据脱敏技术方向。本文讨论的均是基于离线数据的数据脱敏,流式数据的脱敏技术无论是理论基础与具体实践大都还处在摸索的过程中[7],留待以后继续探索。

原文地址:https://www.cnblogs.com/wenBlog/p/9701158.html

时间: 2024-10-29 18:23:40

大数据脱敏的相关文章

数据脱敏

https://www.cnblogs.com/yangzailu/p/6755440.html 数据脱敏介绍 数据脱敏(Data Masking),又称数据漂白.数据去隐私化或数据变形.百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护.这样,就可以在开发.测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集. 可以看到数据脱敏具有几个关键点:敏感数据.脱敏规则.使用环境. 敏感数据,又称隐私数据,常见的敏感数据有: 姓名.身份证号码

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息.用户访问的时间规律等. 本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

贵州全民大数据之体验

?? 近日有机会随广东省云计算应用协会的专家们到贵州贵阳市.毕节市黔西县.遵义市进行了云计算大数据之旅,参观交流了政府相关部门.高新区.经济开发区.软件园.大数据交易所.大数据应用展览中心.智慧社区.电子商务区.相关企业单位以及企业家创业者等等,可以说收获颇多感受颇深,贵州真正地实现了全民大数据热潮,从政府管理人员.企业家.创业者到普通老百姓开口闭口都是大数据,而且很多人的理解还真是到位,令我等书到用时方恨少,汗流直下三英尺. 然后思考为什么?个人观点:除了贵州本身拥有的天然条件适合建立大数据中

金融大数据时代,金融BI强势来袭——奥威Power-BI

4月8日,“掘金大数据时代”远大愿景的“金融大数据高峰论坛暨可以融资的BI”产品发布会在武汉成功举办.作为国内最早的大数据与商业智能知名厂商奥威软件响应广大号召,与深圳亚洲保理联合主办发起这场金融BI交流盛宴,携手六度人和以及行业大咖围绕移动互联高速发展下大数据时代的技术及应用根本,解决数据分析痛点,更好地挖掘金融大数据时代等议题交流经验想法.吸引了近百家来自五湖四海的为中小企业提供管理信息化服务或金融服务的厂商们齐聚一堂,就企业融资发展和深化信息管理等热门话题做主题分享,聚焦运用保理工具助力中

大数据可以像股票一样交易了,贵阳、武汉先尝鲜

Gartner针对北美地区企业的一项调查显示,三分之二的数据价值产生在企业之外,而不是企业内部.由此可见,数据的公开和流动可以更好地促进数据价值的产生.中国政府已经认识到数据公开的重要性和必要性,目前正按部就班地推动数据的公开交易.从4月贵州大数据交易所正式运营,到7月武汉长江大数据交易所挂牌,短短3个月时间,大数据交易所就像星星之火,照亮了国内大数据交易市场美好的发展前景. 促进数据流动和跨界分享 一提到大数据的落地,很多人习惯将它与云计算的发展历程进行对比,因为两者走过了相似的发展道路,从概

揭秘大数据买卖在中国

全球各个行业的数据存储量,每年都在以59%的速度暴增.面对数据交易平台这一新兴事物的兴起,在相关个人隐私和国家安全法律法规欠缺的前提下,大数据如何买卖?交易机制是什么?交易的主体是谁?存在哪些机遇和挑战? 著名基因组专家汪建说,将一个人从怀孕第一周开始,一直到生下来的整个过程全部用基因大数据模拟记录下来,一千年以后很容易复活. 汪建的陈述背景是,大数据背景下的基因技术.正如1970年一个美国学者安德森说过的“多带来不同”,大数据正在成为未来稀有资源. 然而,面对海量数据,应用成了难题,就如斯坦福

BAT"做"大数据,企业"用"大数据

摘要 : 为什么Zara毛利率比LV高?当百度“大数据引擎”等互联网巨头向社会开放大数据基础设施,敢用.会用,就能创造更多商业奇迹和民生福利. 大数据,是不是“大忽悠”? 当Zara这家零售企业将大数据运用于创新经营时,它创造了比奢侈品巨头LV税前毛利率更高的奇迹!要知道,Zara平均服饰价格只有LV的四分之一. 随着百度开放“大数据引擎”,超级互联网公司们正在向全社会提供大数据的基础设施服务.敢用.会用,就可以创造更多类似的商业突破和民生福利. [为什么Zara毛利率比LV高?] 据悉, Za