2015年,国务院颁布了大数据实施纲要通知《国务院关于印发促进大数据发展行动纲要的通知》,从国家层面上将大数据战略思想逐渐成型。随之,各行各业逐渐意识到海量数据的价值及重要性,分析数据并挖掘其潜在价值的需求不断加大。那么我们今天就来扒一扒:大数据能产生什么价值,值得我们去分析它?
一、什么是大数据
IDC以4V特征来定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value);Amazon的John Rauser 将大数据定义为:任何超过了一台计算机处理能力的数据量。可见不同的主体对大数据的定义是不同,但有一个共同点,即数据必须是海量的。
一个人每天可以产生如下社保信息:身份、医保/养老/工伤/失业/生育等各险种的参保信息、财务、薪酬等敏感信息…….
一台工业设备每天可以产生的信息:第一、行为日志。访问信息、发送的控制指令等信息;第二、设备通信日志。包括数据连接建立时间、连接端口、访问外部节点信息、传输数据量等信息;第三、设备异常报警日志。如设备认证失败、异常行为类型等;第四、流量信息及阻断信息。
这些信息每天都在产生,久而久之汇聚成海量的数据,通过不同的终端以各种各样的形式存在。比如,存储于关系型数据库Oracle、PostgreSQL,数据文件XML,Hadoop数据源HDFS等。但是它们的价值密度较低,海量数据中只有小部分是有用的,其他大部分数据没有什么价值,必须进行分析才能发现价值。
二、大数据的价值
下面我们就从社保大数据和工业设备大数据这两个领域,来看看分析这些大数据能产生什么价值?
(一)分析社保大数据产生的价值
经过近三十年的发展,我国社会保险制度逐步趋于完善,社会保险覆盖范围不断扩大,社会保险基金征缴和管理不断加强,各项社会保险待遇水平进一步提高。与此同时,伴随着信息技术的进步,金保工程的实施,一个以信息网络三级互联、应用软件基本统一、数据资源集中管理为主要特征的、统一的金保工程支撑平台已在全国基本形成,全国所有地级城市和省级人社部门均已建立了数据中心,32个省级单位全部实现了与部中央数据中心的网络联结,90%以上的地市实现了与省级数据中心的联网,城域网已经联接到92.5%的社会保险经办机构和就业服务机构,并且延伸到街道、社区、乡镇和定点医疗服务机构,覆盖全国的人力资源社会保障信息网络架构初具规模。社保数据不断向上集中,参保人数几乎覆盖全国,历史数据不断积累,社会保障信息呈现出“大数据”的特性。
大数据系统可以将社保所有的经办点和服务机构联结起来,实现跨区域、跨险种社保数据的整合后进行分析,从而解决如下问题:
第一,可以防止以下冒领社保待遇的行为。防止居住本地但不具备在本市办理退休的外地参保人员,采取伪造转移信息表,虚构缴费年限,骗取社会保险关系转移接续的;防止参保人员与中介(或用人单位)虚构劳动关系,提供虚假证明材料,按照单位职工突发重大疾病特殊审批政策规定骗取医疗保险待遇;防止单位为自愿离岗的职工出具解除职工劳动关系证明,骗取失业保险待遇享受资格的;防止非工伤人员虚构、伪造受伤事实,骗取工伤保险待遇;防止工伤人员虚构、伪造、变造、非法更改工伤认定、劳动能力鉴定原始结论,隐瞒、编造病史骗取工伤保险待遇;防止工亡职工供养亲属虚构、伪造、变造、非法更改原始证明材料骗取供养亲属抚恤金待遇的。
第二,可以防止以下重复参保的行为。防止参保退休人员通过重复参保缴费,重复领取养老待遇;防止离退休人员死亡后,亲属不告知社会保险经办机构继续冒领养老金;防止享受失业保险待遇期间已重新就业,蓄意欺骗社会保险经办机构并继续享受失业保险待遇;防止享受失业保险待遇期间人员已经死亡或异地退休,不告知失业保险经办机构并继续享受失业保险待遇;防止享受工伤保险待遇的工伤人员、工亡职工供养亲属死亡后,亲属或所在单位不告知经办机构继续冒领工伤保险待遇。
第三,有利于社保基金的监管。社保基金安全有效运营和在动态经济环境中保值增值,是社保的关键所在。基于这样的认识,运用数据挖掘算法,在对社会保险基金运行状况进行统计分析的基础上,通过设计监测预警模型,确定预警线及警戒标志来进行社保基金的事前监管。改变以往事后审计、事中监督的监管模式,不仅有利于防止实践中社保基金被挪用、侵占现象屡禁不止,违规操作的事件层出不穷,威胁到保障广大劳动者切实利益的“养命钱”和“保命钱”安全的弊端。而且,有助于进一步规范和完善监管制度,增强基金投资和运营情况的透明度,建立信息化的基金监管体系。从而充分发挥社会保障制度的“减震器”、“安全网”作用和对经济持续增长的“助推器”功能。对于构建和谐社会和保持经济结构调整、经济体制转型时期的社会稳定具有积极的意义。
(二)分析工业设备大数据产生的价值
根据统计,大多数据的涉密犯罪来自于内部:应用单位未设立相应的安全管理系统、技术措施和制度。很多安全事故基本是因为内部人员和外部人员勾结所为,而且呈上升的趋势。因为内部人员比外部人员更加容易获得系统的权限,能够造成更大的威胁,而一般的安全防护系统对外部的防范比较多,而内部的防范和监控相对比较薄弱,造成内部人员的不合法操作很难被发现,具有威胁大、难防御、难发现的特点。
通过大数据分析,除能通过系统报警和统计发现违规操作行为和频次这些基础功能外,还能保证设备的深度安全运行,以及对内部人员的高危操作进行捕捉。
第一,保证设备的深度安全运行。可以直接利用工业控制网络中的隔离设备作为日志采集探针,将其采集的上位机、下位机、设备、主机和应用系统日志进行全面的标准化处理,及时发现各种安全威胁、异常行为事件,透过事件的表象真实地还原事件背后的信息,提供真正可信赖的事件追责依据和业务运行的深度安全。
第二,对内部人员的高危操作进行捕捉。轻松实现挖掘线索,追溯、定位到人,对犯罪行为起到足够的震慑,帮助工控企业最大程度规避内部人员违规操作的风险。强有力的防止内部人员滥用权利进行计算机犯罪,或者把特权转让给有恶意目的的用户,从其服务器中盗取重要生产控制数据。