Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构。今天主要给大家介绍一下英国数据治理的一些现状和实践。Data.gov.uk就是相当于英国的电子政务云。我不知道大家还记不记得这个画面,这是2012年伦敦奥运会的时候,当时的一幕,一个房子拉开了之后一个人在里面座着打计算机,这个人是一个英国籍也是牛津大学毕业的科学家,也是万维网之父。他当时创造互联网时候当时是一个博士生,他有一个想法就是说能不能有一个东西把全世界的电脑里面文件全部连接起来,所以他提出了超连接的概念。当时他说我这个东西造出来之后不是唯我独享的,我这个东西造出来之后是全世界所有人所共享的,所以他没有申请专利,把这个放到网上就公开了,就是一个蝴蝶效应,没有人想到互联网发展到现在是这么一个蓬勃的产业,这是当时非常年轻的一个博士生的想法。

他发明互联网之后回到英国,大家问他互联网另外一个发展点是什么,他当时不加思索的说大数据。所以英国开放数据的始祖还是他,他不停的在英国政府之间游说,推动政府开源,因为政府掌握大量的资源,政府首先要做起来,把这些东西做起来,然后推动开放数据的计划。

英国首相卡梅隆先生2012年推出了“透明性革命”,就是这届政府致力于建立一个全世界最透明、最开放的政府这是他当时竞选首相的宣言。刚才张研究员也说了,G8峰会是中国为首的推动全世界最发达的8个国家提出了一个声明,开放数据是全球化核心的进程,主要致力于提供更加有效的,更加负责任的政府。从而更加的推动经济和社会的发展,这也是G8峰会达到的共识,所以G8峰会有一个宣言就是致力于推动八个最发达的数据开放的项目。

2014年政府开放程度的排名大家可以看到英国是远远高于其他的政府,综合评分是96%,第二名丹麦政府只有83%。所以大家可以看到英国从公共的交通信息,包括政府预算信息和它开放的是领先于很多国家最主要的原因就是把所有政府的消费信息,就是政府花了多少钱都放到网上,排第二名的丹麦这方面还是很欠缺的。第三是他们所有的选举信息都放到网上,和国家地理信息、统计信息、立法信息和邮政信息、和跟环境相关的污染的信息都是毫无保留的。除了牵扯到隐私和国家安全的数据不能公开之外,只要能公开的尽量公开。所以英国在开放数据方面一直遥遥领先于世界。

Data.gov.uk我们是有幸得到谷歌的资助,2013年开始对这个网站进行大规模的研究分析它的使用情况。首先看一下开放的定义,开放有不同的定义,到底什么是真正的开放?在英国有一个定义,开放就是任何人都可以免费获取、使用、修改或者分享任何信息、任何的目的。所以是没有任何限制和没有任何附加条件的开放。开放数据在英国的定义,所有的开放的数据和开放的内容都能够免费的使用,免费修改和免费分享,可以不拘于任何目的哪怕是商业的目的。所以是完全之开放,没有任何附加条件。

英国开放计划大概有8个定义,8个标准。第一个首先是完全的开放,必须尽量把所有全部的数据拿出来。第二个就是优先级是很高的,必须得排在政府工作很高的优先级。第三个就是时效性,不能说政府把这个数据放了十年以后再开放,没什么用了,所以能尽早开放都尽早开放。第四就是必须要有有效的访问手段。英国政府有一个很好的网站一搜索所有想要的数据都能找到,所以它提供了非常好的访问性。第五必须是机器能够获取。比如说一个照片放到网上,一个扫描文档放到网上机器读不了也不行,必须是机器能读得格式。再一个就是不能有任何歧视,所有人都能拿得到。还不能有任何知识产权的保护,任何人都可以用,不能说有很多附加条件。所以这是一个非常完全的开放。

刚才我也提到了英国政府对这个东西特别强调,就是所有开放的数据有五个评分,评分最好的就是对机器阅读最有效的格式,所以一定不能是照片这种格式,因为是一个大数据的系统,所以很多是通过机器访问数据的,所以格式必须是能够机器访问的,这是英国评判一个数据好坏的绝对标准,就是数据是否能被机器所访问。

这是西方国家开放数据的目录栏,进到里面可以看到所有开放数据国家开放数据的网站。

下面讲一下开放数据的目的,为什么要把这些数据拿出来呢?首先就是社会觉得我们很多数据政府愿意放出来。第二步就是刚才史总讲到的,政府把这些数据拿出来,是因为政府的人可能也不太懂这些数据,存在那儿浪费资源,为什么不拿出来让社会的有识之士懂数据的人用呢。所以就是在数据基础上创造一些新的东西。

英国政府做法是有一个开放数据研究院,简称叫ODI,也这个研究院总部设在伦敦,是一个数据创客,是一个开放的环境,任何人都可以进到里面去开发应用,开发手机软件。当时我们去的时候,他们给我们介绍一个案例,一个在读的高中生,来到这个地方突发奇想说我为什么不开发一个软件告诉大家,我生活周边的犯罪率的记录呢,所以他当时回去花了一个星期的时间开发了这个软件,这个软件就爆火了,因为在英国只要搬家的话大家会查一查周边的犯罪率的情况,大家都希望住到安全的地方。还有查找医生信息、住院信息和查找住房的信息很多可能性都可能发生。所以它不光是一个研究机构,还是一个孵化基地和创客集中地。

介绍一下我们的研究,这是唐人街10号请愿的数据分析,这个网站是高于500个人有这个诉求的话,政府就得出来回应。第二个案例我们把政府所有的网站的流量做了数据分析,比如这个是中央政府网站的入口,可以进到不同的部委,可以通过流量分析把部委网站使用频率做一个可视化的分析。

还有政府网站的维基百科关键词的分析,显示比较高的就是开放的政府、包括有专门给政府提供开放数据技术支持的。英国卫报做的2011年到2012年所有政府开支的分析数据,蓝色这部分很大一部分是社保资金占比,英国政府主要开制还是社保和医疗这块,基本占了英国政府总开支70%。国防很少,教育投资都不是很多。所以可以很清晰的看到今年政府花了多少钱,还可以算出政府今年花的钱是多了还是少了,可以很明晰的看出来。

美国加州包括德国等都陆续把他们的预算开支都公开了。

下面介绍一个我们小的项目,英国政府有一个开放的计划,英国所有网站都存在答应图书馆里面,我们现在通过一些网络的爬虫技术和既有网上的信息帮他们进行分析。这个数据库大概有30个Terabytes数据,我们通过答应图书馆帮助英国政府做一些网站的演进闷热。可以从中看到96年到2009年不同的英国域名之间的变化,黄色就是公司域名的增长,大家可以看到黄色和红色是不停的增长的,红色是政府慈善机构的增长,橘黄色是政府,蓝色是学校的增长。

我们在这个基础之上做了不同的域名之间互相流量的分析,大部分的流量还是政府和公司之间的流量,政府相当于一个流量的连接器。

我们今年6月份刚发表了一篇文章,我们的院长是资深的政治学教授,也是政府开放数据的推动者。我们花了一年的时间把所有英国政府开放的数据研究了一遍,最后给政府和业会提供一些建议。挑几个关键点给大家分享一下,通过我们的分析发现什么样的数据使用比较多的呢?就是跟财经相关的信息,跟政府花消相关的信息使用的比较多。老百姓最关心的还是政府花了多少钱这块。

另外就是政府公共基金被使用的比较多,政府公共基金是英国人的概念,包括税务、财政都是被归类于政府公共基金的,所以这块看的也是比较多。

第三,它的这个数据如果有很多描述的信息,政府被民众所下载的情况比较多。

第四,数据更新频率越高,有可能下载频率就更高。

通过这四点,我们最后给英国议会也做了一个报告,因为开放数据的数据量太大了,我们要给数据做一个优先级,可能被老百姓关心更多的数据、下载更多的数据,给它更多的优先级,这样就能更新的更快,有些老百姓可能不太关心的数据就把它降低更新的频率。

时间: 2024-10-28 18:28:09

Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践的相关文章

支撑电子政务平台的CMS内容管理系统

随着政府信息化的逐步深入,基层(包括县乡以及政府各部门)的电子政务平台建设开始演绎主角.电子政务平台正从“面”渗透到“点”,数据中心平台正从中大型应用转向基层中小型应用,电子政务云平台的发展推动了政务信息的互联互通.信息共享.业务协同,强化了信息资源的整合,规范了采集和发布,加强了社会综合开发利用. 建设电子政务公共平台是电子政务发展到深化应用.突出实效阶段的重要举措,未来一段时间内,应以省级平台为主建设统一的电子政务公共平台,带动市(区.县)的电子政务公共平台建设,让政府部门在体验“云”的便捷

数据库安全之政务云

2016年10月,中安威士受邀参与了南方某市政府的电子政务云的建设项目,并具体承担了该项目中云端数据安全保护的部分工作.现将在该项目中实施的云端数据库安全加固解决方案分享给大家. 电子政务云数据安全威胁 借助云计算技术,电子政务云对政府的IT资源进行统一管理.按需使用,可有效节约信息化建设资源投入成本,降低IT资源消耗.但基于云计算模式的电子政务,必定也会面临网络威胁和恶意***等,尤其是对数据安全.隐私保护提出了更高的要求.特别是在数据管理权与所有权分离的状态下,数据安全和隐私保护的重要性显得

电子政务私有云盘系统建设必备-Mobox政务盘

序言 这几年,智慧政务已经成为了政府行业IT建设发展的重要进程.传统办公方式信息传递速度慢.共享程度低.查询利用难,早已成为政府机关获取和利用信息的严重制约因素.建立文档分享共用机制,加强数据整合,避免信息孤岛完成信息系统互联互通.信息共享和业务协同已经成为智慧政务私有云盘系统建设的重要任务. 结合硬件性能提升.云计算.大数据.移动.社交的发展趋势,政府行业在建设智慧政务私有云盘系统的进程中存在以下问题: 存在大量的非结构化数据 随着政府行业新业务不断上线,例如:数字化法庭系统.头像识别系统.社

电子政务发展中的问题不容忽视

在充分肯定过去十年我国电子政务发展取得巨大成就的同时,我们也应清晰地看到电子政务建设和发展中存在的问题.这些问题,反映在多个方面,但集中起来看,主要有"三难",即资源共享难.互联互通难.业务协同难.具体来说: 一是前十年我国电子政务建设主要集中在办公自动化和提高政府部门工作效率方面,面向公共服务和改善民生方面的建设重视不够,应用系统也相对较少. 二是网络建设不规范,系统分割,孤岛严重.目前我们有政务内网.政务外网,还存在大量的政务专网.这些专网各自为政,相互封闭.有关方面对中央部委的3

浅谈电子政务门户建设选型经验

我县是河北东北部的一个县城,经济不发达,信息化建设很靠后,两年前刚到政府单位上班的时候,政府的门户网站很单调,数据基本上也是空的,作为一个旅游大县,门户的网站建设是很有必要的,是宣传旅游和招商的重要途径.虽然河北整体的信息化水平就不高,但是信息化建设肯定是以后各级政府发展的重要方向,通过向上级领导汇报信息化建设的重要性以及门户网站现有的不足和以后的发展趋势,最终确定要把门户的信息化建设提上日程. 通过网上查找资料以及实地考察公司和产品,最终选定了西部动力的产品,主要考虑到以下几方面很符合我们将来

谈政务云的未来前景

今天到客户那拜访时候聊到政务云的话题,聊了很久,得到一些感悟在这里写下来,希望国内的网络行业越走越好,越走越远. 政务云的概念一提出来,说实话对我们乙方尤其是系统集成商影响很大,国内大多数的集成商客户群体居政府行业的多,其中的缘由就不做过多阐述: 政务云是一个什么样的概念?现在国内并没有任何先例,本来我对政务云的理解仅限于IDC一样的概念,把设备租用给客户,把资源统一利用,整合资源节省能源避免浪费这样一个概念:但是往深入想一想,其实首先政务云的提出首先就解决了一个技术难题:业内都流传一个说法:政

慧正工作流行业案例——电子政务,北京市科委政务办公系统

北京市科委介绍 北京市科委是负责北京市科技工作的市政府组成部门. 主要职责 (一)贯彻落实国家关于科技工作方面的法律.法规.规章和政策,起草本市相关地方性法规草案.政府规章草案,组织拟订科技发展和科技促进经济社会发展的政策,并组织实施. (二)组织拟订本市科技发展中长期规划.年度计划,并组织实施:研究提出科技发展布局和优先发展领域:推动科技创新体系和科技服务体系建设,促进科技服务业发展:推进科技北京建设. (三)组织制定本市应用基础研究.高新技术发展以及重大科技成果应用研究的政策措施:负责统筹协

我们用『洪荒之力』,为电子政务信息安全保驾护航

政府主导,推动电子政务信息安全国产化发展 国家网络安全和信息化领导小组的成立,标志着信息化和网络信息安全是未来中国发展的最高战略方向之一.根据此战略及中国国情,中共中央办公厅制定了相关文件,各级政府机构据此文件制定了相应的信息安全政策,以推动行政单位信息化安全的快速实现. 目前,中国政府各单位正建设电子政务内网平台,以有效提升网络和信息安全保障能力,形成统一完整.科学规范.安全可靠的信息化工作体系,该体系包含信息基础安全.信息传输安全和信息使用安全. 信息化战略的发展是以信息化产品完全国产化为支

牛津大学神经网络语言模型 OxLM 安装及使用

预备知识 语言模型 [摘自 维基百科] 统计式的语言模型是借由一个概率分布,而指派概率给字词所组成的字串: 语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索.由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的概率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因. 在语音辨识和在资料压缩的领域中,这种模式试图捕捉语言的特性,并预测在语音串列中的下一个字. 当