全球各个行业的数据存储量,每年都在以59%的速度暴增。面对数据交易平台这一新兴事物的兴起,在相关个人隐私和国家安全法律法规欠缺的前提下,大数据如何买卖?交易机制是什么?交易的主体是谁?存在哪些机遇和挑战?
著名基因组专家汪建说,将一个人从怀孕第一周开始,一直到生下来的整个过程全部用基因大数据模拟记录下来,一千年以后很容易复活。
汪建的陈述背景是,大数据背景下的基因技术。正如1970年一个美国学者安德森说过的“多带来不同”,大数据正在成为未来稀有资源。
然而,面对海量数据,应用成了难题,就如斯坦福大学的Trevor Hastie所说,“在稻草里找一根针”。 你可知道这“稻草”何其多?光纤传送网与宽带信息网专家邬贺铨院士曾经这样比喻,如果把2011年获得的全世界数据量装到iPod上的话,可装满575亿个iPod。把这些iPod当砖用,可垒起两座中国长城。
据统计,全球各个行业的数据存储量,每年都在以59%的速度暴增。由于缺乏规范的数据共享和交易渠道,不同行业间很难形成数据互利共享,数据交易平台乃至交易所也就成为了迫切需求。
“很多企业愿意将自己的数据纳入政府的统计体系或纳入政府的统计数据的发布体系。但是不太愿意提供数据的收集、方法和算法这些过程性的信息。”国家统计局统计科学研究所副所长许亦频坦言,政府统计应用大数据面临数据割裂化难题。
有没有这样一个平台,可以提供经过审核的“干净”数据,一方面不侵犯个人隐私和国家安全,另一方面可以合法提供各类企业个人所需要的数据呢?
“2013年中国各个行业产生的数据孤岛,各个领域的数据被割裂化。”秦翯告诉本刊记者,数据割裂化体现在各类活动的数据都保存在不同的领域:金融活动数据在银行,搜索数据在百度,电子商务数据在阿里巴巴,发微博、微信等数据都保存在不同公司、不同企业、不同机构手中。另外,各类数据输出的格式五花八门,企业行业或者个人如果想应用并不容易。
9月13日,在北京清华同方科技园,记者目睹了这一国内首家重点面向大数据的数据交易服务平台的运行。通过数据API的录入、检索、调用,提供数据交易和使用的场所。自今年2月底试运行以来,中关村数海大数据交易平台已产生7532笔交易,交易额达842万元,整合了京东、新浪、天翼等免费数据商品千余条,收费数据近万条,收录国外API数据达数千项。
面对这一新兴事物,在相关个人隐私和国家安全法律法规欠缺的前提下,大数据如何买卖?交易机制是什么?交易的主体是谁?存在哪些机遇和挑战?
买水买电买数据
“一个企业有没有偿还贷款的能力?要靠数据说话。”厚普征信公司是一家私营企业,主要为企业、个人提供信用档案等信用服务。董事长鲁西诺告诉记者,在加盟大数据交易平台之前,主要通过自有技术软件在网上查询,与政府部门进行数据合作等传统方式获取企业数据,从而为企业客户出具银行贷款所需的信用评级报告。
今年上半年,厚普征信公司从大数据交易平台购买了数据产品,使用交易平台四个月后的鲁西诺俨然成了大数据半个行家,他透露,“企业在交易、经济生活中产生的金融痕迹、物流痕迹、纳税痕迹、完税数据等各种数字痕迹,都有助于我们来判断它是否有创新力和偿还贷款的能力。数据越丰富,判断结果越精准。”
鲁西诺预计,公司的数据今后将有60%到70%来源于传统的自有途径,30%到40%将来自大数据交易平台。
与在线交易不同的是,对于完全不懂大数据的传统企业来说,平台的托管交易服务基本是一站式,卖方只需要把数据交给平台,具体的大数据处理分析等技术难题就全部托管了。
北京途牛国际旅行社有限公司副总裁赵越给记者描述了“托管数据”的美景:通过对企业自身数据的分析,并和平台其他数据进行多源融合和补充,形成对途牛供应商和平台消费者的多达10余种的互联网金融业务。
那么,目前为止大数据的买卖方都是些什么人?据秦翯介绍,目前大数据交易平台的成员包括电信运营商、互联网金融企业、软件企业、电子商务企业、咨询公司、风投等不同行业企业,具体来说,天翼、用友、京东、易观、红岭创投、联想等公司都属平台成员范畴。
中关村数海大数据交易平台,在中国最大的数据聚集地中关村数据交易平台,引起了政府相关部门的关注。据秦翯透露,目前他们已与指导单位国家统计局签订战略合作协议,就政府大数据平台的建设提供技术支持。
“如今绝大多数大数据是以各种形式分散地存在于政府部门、电商企业、电信运营商和互联网公司,数据标准不统一、口径比较杂乱,数据间难以衔接,这也是限制大数据开发和共享的一个障碍。”国家统计局统计科学研究所副所长许亦频表示,数据的权威性和数据的质量是建立在数据的公开性基础之上的。目前看数据公开性的不足是制约政府统计应用大数据的主要障碍。
秦翯向记者透露,政府的大数据开放平台系统,包括支持多种格式的数据上传,以API接口的形式开放,系统一旦建成,部署起来非常快速,基本一天之内就可以完成整个系统平台的建设。
大数据怎么买卖?
2013年4月,一位名叫Federico Zannier的美国人火了,因为他要将3个月积攒的大约7个GB的隐私数据卖掉,而且已经成功炒到了1100美元。
据Zannier自己统计,7GB的数据中共有280万行文本信息,算下来有1500本书。软件记录的鼠标点击次数75.5万次,电脑摄像头自动拍照2.1万张图片,总计1.9GB容量;以及约2万张屏幕截图,总计1.7GB容量。
“这仅仅是个极端的个例,不过可以看出大数据的商品属性。”秦翯告诉本刊记者,目前中国的数据交易现状是地下交易不规范,地上交易空白,中关村大数据交易产业联盟的交易平台是在充分保证用户隐私和国家利益安全基础之上,建立起规范的数据交易市场。
那么,大数据时代如何将“数据”变成商品,如何实现有效的数据交换?纵观国际市场,记者发现从2008年开始,大数据交易市场已经初见端倪,“数据市场”、“数据银行”,甚至“数据公约”,交易市场在国外并非新鲜事。
在上海拥有办事处的美国Factual公司成立于2008年,不仅向大公司提供数据,同时也面向规模较小的软件开发商,每一条信息都有17到40条的相关描述。按浮动价格向公司和独立软件开发商出售数据,小规模的数据提供是免费的,大型客户需要支付的费用则会达到成百上千万美元。包括Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获取相关信息。
2013年4月,日本富士通公司也宣布建立自己的“大数据”交易市场“Data plaza”,并将交易中介服务培育为主力业务之一,计划在2016年之前将参与企业增加至千家左右。
一提到大数据买卖,似乎个个“谈隐私色变”。谈及数据买卖与个人隐私的关系,作为第一个敢吃螃蟹的人,秦翯就如何充分保障个人隐私受到保护,给记者展示了“法规”+“数据脱敏”组合拳。
首先,中国第一份大数据交易规则——《中关村数海大数据交易平台规则(征求意见稿)》(以下简称《规则》)在6月25日中关村大数据交易产业联盟专家顾问委员会宣布成立当天同步推出。《规则》从交易平台、交易主体、交易对象三个方面规范交易市场行为,并对在线数据交易、离线数据交易、托管数据交易等三种数据交易模式进行规范。
个人隐私的信息使用方面,参考了《全国人大关于加强网络信息保护的决定》、《互联网信息服务管理办法》、《电信和互联网用户个人信息保护规定》等法律法规。其中第三节交易对象明确:禁止交易的数据包括涉及国家秘密和个人信息等法律保护的数据,禁止在交易平台交易。
那么如何从操作层面上,落实这一隐私保护的规定?
“对于数据安全方面的问题,平台也已经有所准备。”秦翯从技术角度给记者演示,通过数据脱敏技术,对数据源的属性进行描述和标注,如果涉及到敏感数据的调用,将进行实时的数据清洗、技术屏蔽、审核处理,最终提供给需求方的数据也将在完成安全测试之后,再行提供。即使调用成功,也会在使用次数用尽或使用期限到期之后,对权限进行收回。这一系列流程,不仅避免了用户敏感数据的流出,也照顾到了开发者在线交易的便捷性。
数据究竟该卖多少钱?定价也成为人们关注的热点。
“第一步就是给数据定价,首先是数据商品化,促进数据的流通。”秦翯告诉记者,平台初步采取自由定价的方式进行交易。如果某个企业、机构想要出售自己掌握的数据,在确保数据不涉及个人隐私、不危害国家安全,同时在获得数据所有方授权的情况下,平台会提供参考价,但并不干涉最终的成交价格。此后,通过数据购买用户的反馈,平台会对定价规则进行逐步调节、探索。
在交易过程中,平台并不存储任何一家提供方的数据,而只是扮演一个交易平台和服务通道的角色,“当使用时才会接通”。这不仅与“数据即资产”的业务出发点相一致,而且很好地规避了平台方可能存在的数据监管风险。
付费模式包括两种:第一种是包月,第二种是按调用次数,完成付费后即可获得平台和数据提供方的使用密钥。目前,数海平台的交易对象,仅限数据的使用权。若双方出现数据质量的争议,经交易平台查证属实的,此平台将停止双方数据交易服务,并退还数据买方货款,其间产生的其他损失由卖方承担。
据了解,此次成立的中关村大数据交易产业联盟专家顾问委员会由国家统计局党组书记、局长马建堂担任名誉顾问,国家统计局总统计师鲜祖德、中关村管委会主任郭洪、中国科学院院士鄂维南院士、北京银行副行长许跃宁等70余人组成。
秦翯表示“委员会将根据相关法律法规,对联盟成员在数据交易模式创新、隐私和数据安全保护、数据交易规则建立等方面发挥重要的指导作用”,这也是保证交易隐私的另一个补充力量。
呼吁公开度和透明度
“这个行业在国内和国外环境不一样,我们需要花很多精力去尝试描述这个行业的规范,包括与政府的相关主管部门去沟通等,这将是一个不断完善的过程。”
尽管大数据交易在国外已经趋于成熟,然而,作为中国首家大数据交易平台,中关村数海大数据交易平台目前遇到了困难。秦翯表示,由于国内的大数据交易行业还处于初级阶段,且较不规范,所以他们还要承担前期的普及推广工作。
中国潜在的大数据资源非常丰富,从电信、金融、社保、房地产、医疗、政务、交通、物流、征信体系等部门,到电力、石化、气象、教育、制造等传统行业,再到电子商务平台、社交网站等,覆盖广泛。
“预计到2016年,中关村大数据对产业的带动规模将超过1万亿。”中关村管委会副主任杨建华告诉记者,“近年来中关村在个性化医疗、数字金融、智能交通、精准营销等基于大数据的新型商业模式不断涌现。涵盖了包括基础设施、数据资源、数据应用等关键环节的完整大数据产业链,形成了中关村大数据产业集群。
政府所出台的公开数据措施及政策等仍然有待加强,已有的公开信息的政策仅有《中华人民共和国政府信息公开条例》,之后基本没有在公开政府的相关信息和开放数据中有具体政策的措施。
“最大的数据不是在政府那里,数量上仅仅占7%~8%,但是仅仅这些,却占到最有效数据的80%,政府不是不愿意拿,该拿的都拿出来了,但是管理密集度太高,越密集价值越高,挖掘的价值太高。可以先做外面大量数据的挖掘,要抓住应用。企业数据核心资源是自身的宝贝,都不愿意拿出来。政府在管理上如果没有主动引导可能不行。”中国通信学会秘书长张新生一直关注大数据交易,他告诉记者,大数据交易需要分步骤进行。
困扰着首家大数据交易平台的另一个难题是,他们呼吁对公众的引导,希望在阳光之下,用更健康、更简明、全民都可以接受的方式来促进这个行业的发展。
据中关村大数据交易产业联盟副秘书长魏凯介绍,《规则》的颁布旨在推动行业自律,打造完善、健康、有序的交易产业链条,从交易平台、交易主体、交易对象三个方面规范交易市场行为,对交易市场内的在线数据交易、离线数据交易、托管数据交易等三种数据交易模式进行规范。
在大数据国家战略缺位、法律缺失的背景下,中关村数海大数据交易平台在探索着大数据交易的先行规则与道路,就如交易平台页面呈现的那样,一束光在桥面上伸向远方。