大数据面临的问题:数据是否需要共享?

  大数据面临的问题:数据是否需要共享?

  在这个大数据时代,数据带来的难题可真不少,比如,一个企业重要的资产中包括一些特殊的数据,那么就会遇到一个问题,企业是否应该与合作伙伴和供应商共享这些数据,还是应该保留其专有权?

  在有关Facebook公司宽松的数据共享政策和欧盟实施通用数据保护条例(GDPR)之间,很多人都在谈论数据隐私和消费者权利。那么作为Facebook或Google等公司的消费者,应该分享多少数据呢?

  那么对于企业呢?

  企业可能正在处理自己的数据隐私难题,他们应该与合作伙伴、供应商还是与其他组织共享公司数据吗?如果是这样,可以分享哪些数据,以及它们应该保留为私有和专有的数据?毕竟,数据是新的石油。亚马逊、Facebook和谷歌都通过收集和利用数据建立了价值数十亿美元的公司。

  虽然数据是公司可能拥有的顶级资产之一,但也可能有令人信服的理由来共享数据。例如,如果行业前沿的癌症中心分享他们每个人收集的数据,它们可能会加速并促进社会治愈癌症的努力。但与竞争对手分享也可能影响他们在市场上的竞争优势。

  组织也可能正在考虑参与供应商计划,例如SAP公司正在开发的名为Data Intelligence的计划,该计划将匿名化企业客户数据,并允许这些客户将自己与其他市场进行对比。

  “人们意识到他们所拥有的数据具有一定的价值,无论是出于内部目的还是出售给数据合作伙伴,这都会让他们更加意识到他们如何匿名共享数据。”SAP公司MikeFlannagan表示。就他们如何看待数据而言,不同的公司处于不同的成熟水平。

  即使企业共享匿名数据以便训练算法,问题仍然是企业在共享匿名数据资产时是否放弃竞争优势。组织需要小心。

  “数据非常有价值。”Databricks公司的联合创始人兼首席执行官,加州大学伯克利分校的兼职教授AliGhodsi表示。根据Ghodsi的经验,组织不希望共享他们的数据,但他们愿意出售对它的访问权限。例如,组织可能会在有限的时间段内出售对特定数据集的有限访问权限。

  Ghodsi说,数据聚合器是通过抓取网络来创建销售数据集的公司。

  Ghodsi说,有些传统的公司可能有数年或数十年的数据尚未暴露于应用人工智能和机器学习,而这些公司可能希望使用这些巨大的数据集获得竞争优势。例如,任何拥有大量会员卡的零售商都可能拥有10年或20年的汇总数据。

  在Ghodsi的经验中,组织需要更多数据,但他们不愿意分享,有时甚至在他们自己的组织内也不分享。在许多组织中,IT团队控制着对数据的访问,并且可能不愿意对业务线领域的数据科学家的所有请求进行响应。这是2017年12月由Ghodsi和加州大学伯克利分校的其他研究人员共同撰写的题材之一,主题为“伯克利人工智能系统挑战观点”。Ghodsi表示,该小组正在进行研究,以寻找激励企业公司分享更多数据的方法。其中一种方法是模型本身,而机器学习模型是对所有数据的非常紧凑的总结。

  Ghodsi说,“例如,我们拥有世界上所有癌症的大量数据集,可以创建一个机器学习模型。它可以预测肺部癌症的可能性、它们的健康状况、癌症的风险。但仍然没有分享所拥有的所有X射线数据,而且不打算对外你分享。”

  Ghodsi说,现在正在开始这种分享。谷歌公司已经发布了许多用于分类图像的模型。

  另一种方法称为转移学习,Ghodsi说在Databricks公司启用了一种方法。Ghodsi说,这个工作通过将现有模型与新模型相结合,允许企业通过利用新数据获得新价值。

  另一种分享研究数据价值同时保留企业对该数据的私人访问权限的方法是通过联合机器学习。这是Owkin公司使用的技术之一,Owkin公司是一家帮助癌症研究中心加速其研究效益的创业公司。

  “在学习中,企业可能将数据留在边缘设备上。”ClouderaFastForwardLabs的数据科学家FriederikeSchuur表示。谷歌公司在博客中解释了它的工作原理:“企业的设备会下载当前模型,通过学习手机上的数据来改进它,然后将更改汇总为集中更新。只有模型的此更新才会发送到云端,使用加密通信,在其中立即与其他用户更新进行优化,以改善共享模型。所有培训数据都保留在设备上,并且云中不会存储任何单独的更新。”

  通过这种方式,组织可以为社区的研究工作做出贡献,但不会在此过程中泄露他们的数据。

  转移学习和联合学习等创新可以帮助解决医疗保健公司分享数据的问题。数据治理服务商Immuta公司的联合创始人兼首席执行官Matthew Carroll表示,在数据共享方面,医疗公司已经看到了很多关注。

  他说,“他们害怕将数据提供给其他人,他们很清清楚楚这是未开发的财富,是未来的企业收入。”

  对于初创公司而言,这种恐惧也可能转化为其他后果。例如,如果价值被认为是数据本身,投资公司是否会向分享其数据的公司提供资金?

  Schuur说,每家公司都需要自己仔细决定分享内容。“如果是癌症研究,人们应该有更多的数据共享。”

原文地址:https://www.cnblogs.com/rengong/p/9535522.html

时间: 2024-10-28 09:48:02

大数据面临的问题:数据是否需要共享?的相关文章

政府部门利用大数据面临的诸多难题

政府部门对大数据进行应用,不仅要处理多种来源和不同格式的数据集成等一般问题外,还面临着一些独特的挑战,最大的挑战是数据采集.由于政府部门收集的数据不仅从各种社交媒体.网站和众包中获取,还可以从不同的国家和机构中采集,收集难度就不难想象了.并且,国家之间的数据和信息共享是一个不小的问题,因为跨国共享信息牵涉到语言的转换和不同文化背景产生的交流问题,在这种情况下共享和传递信息可能会导致信息失去其原有的真实性.另外,在不同的政府部门和机构之间共享数据的状态也是一个挑战.比较政府数据与商业数据,最大的不

周鸿祎:以大数据技术对抗大数据平台安全威胁

1月,中国大陆境内所有通用顶级域(.com/.net/.org等)解析出现问题,所有相关域名均被指向一个位于美国的IP地址(65.49.2.178),导致数千万网民在数小时内无法访问网站. 4月,OpenSSL"心脏出血(Heartbleed)"重大安全漏洞被曝光,这一漏洞让黑客能够读取服务器系统的运行内存.有业内人士利用该漏洞在某知名电商网站上测试时,成功获得多位用户的账号及密码,并成功登陆网站. 9月,"iCloud艳照门"事件爆发,数百张好莱坞女演员不雅照在网

2018年我们将面临哪些云数据安全问题?

总部位于密苏里州圣路易斯的TierPoint公司,是一家私人投资支持的主机托管和混合云服务供应商,目前已迅速成为数据中心行业一支不可忽视的力量.TierPoint经营着39个数据中心,数据中心空间共计超过60万平方英尺,遍布美国18个州21个市场.经过仅仅5年的发展,它从一个小型本地数据中心整合者,演变成为一家为多个区域市场提供混合IT解决方案的成熟数据中心供应商. 对于数据安全问题,TierPoint也有自己的见解.2018年我们将面临哪些云数据安全问题?TierPoint提出了以下5种威胁.

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

技术不是大数据第一生产力,数据交易才能带来应用爆发

导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先都谈到的是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的全部":但我这些年的应用实践中,越来越发现,大数据发展最大的瓶颈不是技术,而是高质量数据源的获取.提供和交易环节没有被打通. 技术不是关键高质量的数据源永远是第一位 大数据行业很多新人,甚至业内多年从业者都有这个误区:认为算法.模型很重要.而我认为,即使技术达到世界顶级水平,它依旧不是大数据价值引擎

企业大数据应用只有做到数据与业务深度融合才能体现其巨大价值

这是一个商业对话中言必称大数据和AI的时代,用数据爆炸来形容这个时代毫不过分.但面对这么多和杂的数据很多传统品牌企业失去了方向,束手无策,传统品牌时代那种高举高打,有钱就可以任性的时代已经结束,取代的是精准营销,商业智能等多种形式. 现实很美好也非常骨感,数据量太大必然带来一些新的困扰.互联网上的数据量太大,怎么抓得过来?是不是需要投资很多服务器,我的系统能支持吗?数据可信度高吗?这么大的数据量怎么解读? 当下企业ERP中的小数据和互联网的全量数据可以实现完美结合,二者互相融合辅助企业的各种商业

大数据理论体系总结--数据仓库管理与全链路数据体系

前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家.那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术.大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来: 早在多年以前在Hadoop.Spark.Storm.Kafka等系列分布式计算与存储.消息中间件还没有成熟的时候,

2019大数据数博会-数据时代软件展览会

◆ >>>展会概况 随着现代信息技术的不断发展,世界已跨入了大数据+互联网时代,我国大数据产业发展迎来"黄金期",数据驱动的创新正逐步向经济社会各行业领域融合应用,拓展出行业发展新空间,助力行业结构转型升级.同时,随着双创战略.网络强国建设.互联网+行动计划.中国制造2025等国家战略的深入实施,为大数据.云计算.物联网等新兴技术与产业融合发展带来新机遇,成为助推数字经济创新发展的新动能是国家信息化和未来发展的关键.为更好的促进大数据产业务实发展,助力数字经济创新升级

网络大数据黑客揭秘,数据变相买卖,从手机到电脑!

当你登录今日头条,浏览一些新闻或者广告内容,然后打开淘宝,出现的都是与你刚浏览的相关的产品的时候,你会不会觉得不可思议,是的这就是小数据,手机很多app都会记录你的上网习惯和浏览的内容意向,然后手机里面某些流氓插件在后台随时上传和传送这些数据,这些小数据为什么可以成就大数据呢?因为你上网缓存的点点滴滴都会上传到各个大平台的数据库进一步处理,比如头条,比如淘宝,比如腾讯. 大家都知道微信朋友圈或者微信好友会有人发给你一条消息,有的是群发的,有的是单发的,有的是app发送的.就是说清理僵尸粉,清理被