牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践
我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构。今天主要给大家介绍一下英国数据治理的一些现状和实践。Data.gov.uk就是相当于英国的电子政务云。我不知道大家还记不记得这个画面,这是2012年伦敦奥运会的时候,当时的一幕,一个房子拉开了之后一个人在里面座着打计算机,这个人是一个英国籍也是牛津大学毕业的科学家,也是万维网之父。他当时创造互联网时候当时是一个博士生,他有一个想法就是说能不能有一个东西把全世界的电脑里面文件全部连接起来,所以他提出了超连接的概念。当时他说我这个东西造出来之后不是唯我独享的,我这个东西造出来之后是全世界所有人所共享的,所以他没有申请专利,把这个放到网上就公开了,就是一个蝴蝶效应,没有人想到互联网发展到现在是这么一个蓬勃的产业,这是当时非常年轻的一个博士生的想法。
他发明互联网之后回到英国,大家问他互联网另外一个发展点是什么,他当时不加思索的说大数据。所以英国开放数据的始祖还是他,他不停的在英国政府之间游说,推动政府开源,因为政府掌握大量的资源,政府首先要做起来,把这些东西做起来,然后推动开放数据的计划。
英国首相卡梅隆先生2012年推出了“透明性革命”,就是这届政府致力于建立一个全世界最透明、最开放的政府这是他当时竞选首相的宣言。刚才张研究员也说了,G8峰会是中国为首的推动全世界最发达的8个国家提出了一个声明,开放数据是全球化核心的进程,主要致力于提供更加有效的,更加负责任的政府。从而更加的推动经济和社会的发展,这也是G8峰会达到的共识,所以G8峰会有一个宣言就是致力于推动八个最发达的数据开放的项目。
2014年政府开放程度的排名大家可以看到英国是远远高于其他的政府,综合评分是96%,第二名丹麦政府只有83%。所以大家可以看到英国从公共的交通信息,包括政府预算信息和它开放的是领先于很多国家最主要的原因就是把所有政府的消费信息,就是政府花了多少钱都放到网上,排第二名的丹麦这方面还是很欠缺的。第三是他们所有的选举信息都放到网上,和国家地理信息、统计信息、立法信息和邮政信息、和跟环境相关的污染的信息都是毫无保留的。除了牵扯到隐私和国家安全的数据不能公开之外,只要能公开的尽量公开。所以英国在开放数据方面一直遥遥领先于世界。
Data.gov.uk我们是有幸得到谷歌的资助,2013年开始对这个网站进行大规模的研究分析它的使用情况。首先看一下开放的定义,开放有不同的定义,到底什么是真正的开放?在英国有一个定义,开放就是任何人都可以免费获取、使用、修改或者分享任何信息、任何的目的。所以是没有任何限制和没有任何附加条件的开放。开放数据在英国的定义,所有的开放的数据和开放的内容都能够免费的使用,免费修改和免费分享,可以不拘于任何目的哪怕是商业的目的。所以是完全之开放,没有任何附加条件。
英国开放计划大概有8个定义,8个标准。第一个首先是完全的开放,必须尽量把所有全部的数据拿出来。第二个就是优先级是很高的,必须得排在政府工作很高的优先级。第三个就是时效性,不能说政府把这个数据放了十年以后再开放,没什么用了,所以能尽早开放都尽早开放。第四就是必须要有有效的访问手段。英国政府有一个很好的网站一搜索所有想要的数据都能找到,所以它提供了非常好的访问性。第五必须是机器能够获取。比如说一个照片放到网上,一个扫描文档放到网上机器读不了也不行,必须是机器能读得格式。再一个就是不能有任何歧视,所有人都能拿得到。还不能有任何知识产权的保护,任何人都可以用,不能说有很多附加条件。所以这是一个非常完全的开放。
刚才我也提到了英国政府对这个东西特别强调,就是所有开放的数据有五个评分,评分最好的就是对机器阅读最有效的格式,所以一定不能是照片这种格式,因为是一个大数据的系统,所以很多是通过机器访问数据的,所以格式必须是能够机器访问的,这是英国评判一个数据好坏的绝对标准,就是数据是否能被机器所访问。
这是西方国家开放数据的目录栏,进到里面可以看到所有开放数据国家开放数据的网站。
下面讲一下开放数据的目的,为什么要把这些数据拿出来呢?首先就是社会觉得我们很多数据政府愿意放出来。第二步就是刚才史总讲到的,政府把这些数据拿出来,是因为政府的人可能也不太懂这些数据,存在那儿浪费资源,为什么不拿出来让社会的有识之士懂数据的人用呢。所以就是在数据基础上创造一些新的东西。
英国政府做法是有一个开放数据研究院,简称叫ODI,也这个研究院总部设在伦敦,是一个数据创客,是一个开放的环境,任何人都可以进到里面去开发应用,开发手机软件。当时我们去的时候,他们给我们介绍一个案例,一个在读的高中生,来到这个地方突发奇想说我为什么不开发一个软件告诉大家,我生活周边的犯罪率的记录呢,所以他当时回去花了一个星期的时间开发了这个软件,这个软件就爆火了,因为在英国只要搬家的话大家会查一查周边的犯罪率的情况,大家都希望住到安全的地方。还有查找医生信息、住院信息和查找住房的信息很多可能性都可能发生。所以它不光是一个研究机构,还是一个孵化基地和创客集中地。
介绍一下我们的研究,这是唐人街10号请愿的数据分析,这个网站是高于500个人有这个诉求的话,政府就得出来回应。第二个案例我们把政府所有的网站的流量做了数据分析,比如这个是中央政府网站的入口,可以进到不同的部委,可以通过流量分析把部委网站使用频率做一个可视化的分析。
还有政府网站的维基百科关键词的分析,显示比较高的就是开放的政府、包括有专门给政府提供开放数据技术支持的。英国卫报做的2011年到2012年所有政府开支的分析数据,蓝色这部分很大一部分是社保资金占比,英国政府主要开制还是社保和医疗这块,基本占了英国政府总开支70%。国防很少,教育投资都不是很多。所以可以很清晰的看到今年政府花了多少钱,还可以算出政府今年花的钱是多了还是少了,可以很明晰的看出来。
美国加州包括德国等都陆续把他们的预算开支都公开了。
下面介绍一个我们小的项目,英国政府有一个开放的计划,英国所有网站都存在答应图书馆里面,我们现在通过一些网络的爬虫技术和既有网上的信息帮他们进行分析。这个数据库大概有30个Terabytes数据,我们通过答应图书馆帮助英国政府做一些网站的演进闷热。可以从中看到96年到2009年不同的英国域名之间的变化,黄色就是公司域名的增长,大家可以看到黄色和红色是不停的增长的,红色是政府慈善机构的增长,橘黄色是政府,蓝色是学校的增长。
我们在这个基础之上做了不同的域名之间互相流量的分析,大部分的流量还是政府和公司之间的流量,政府相当于一个流量的连接器。
我们今年6月份刚发表了一篇文章,我们的院长是资深的政治学教授,也是政府开放数据的推动者。我们花了一年的时间把所有英国政府开放的数据研究了一遍,最后给政府和业会提供一些建议。挑几个关键点给大家分享一下,通过我们的分析发现什么样的数据使用比较多的呢?就是跟财经相关的信息,跟政府花消相关的信息使用的比较多。老百姓最关心的还是政府花了多少钱这块。
另外就是政府公共基金被使用的比较多,政府公共基金是英国人的概念,包括税务、财政都是被归类于政府公共基金的,所以这块看的也是比较多。
第三,它的这个数据如果有很多描述的信息,政府被民众所下载的情况比较多。
第四,数据更新频率越高,有可能下载频率就更高。
通过这四点,我们最后给英国议会也做了一个报告,因为开放数据的数据量太大了,我们要给数据做一个优先级,可能被老百姓关心更多的数据、下载更多的数据,给它更多的优先级,这样就能更新的更快,有些老百姓可能不太关心的数据就把它降低更新的频率。