数据标准化:数据资产化从0到1的起点

随着信息社会不断向纵深发展,数据和信息作为战略性资源的价值正在快速提升。管理大师汤姆·彼得斯早在2001年就指出:“一个组织如果没有认识到管理数据和信息如同管理有形资产一样极其重要,那么它在新经济时代将无法生存。”当前,数据的战略价值已得到广泛重视,数据治理能力也成为了衡量一个地区经济社会发展水平的重要指标。与此同时,加强数据基因密码及数据流动逻辑规则等标准化研究,奠定数据价值且快速提升数据治理能力成为面临最大挑战。

  1、标准化水平决定数据价值

  当前,我国正在大力推进国家治理体系和治理能力现代化建设,数据治理作为国家社会体系中一项新的研究课题也受到了高度重视。由于对数据治理体系及数据价值开发体系研究不够、认识不足,我们只是在政务数据资源管理及大数据开发利用方面出台了一些政策文件,各行各业也在尝试做一些大数据方面的应用,但这都没有真正延伸到数据治理的框架体系之中,自然也无法推动数据价值的有效开发。事实上,也只有加强数据标准化建设,打造一套数据治理体系,我们才能真正进入数据时代和商业智能时代。

  数据治理是一套持续优化完善的管理机制,主要包括组织架构、政策制度、技术工具、标准体系、作业流程、监督考核等方面。数据治理作为一项长期、体系化的工作,需要在各个方面同步推进,否则将出现治理过程的缺陷,降低数据治理水平。尤其数据标准体系作为核心技术规范,更是决定数据治理水平的关键环节,只有标准化才能真正实现数据的高效流动与开发利用。相反没有数据的标准化,数据治理也将无从谈起。

  2、数据标准化的特点

  数据标准化一直伴随着经济社会的发展,各行各业的各个层面也都面临着数据标准化的问题。数据标准化是政府、企业或组织对数据的定义、组织、监督和保护进行规范化的过程,在当前城市大数据应用方面,数据标准化的核心也就是建立制度规范以及对数据元和元数据进行统一定义。在数据采集、存储、分析与应用之前,我们通常需要先将数据标准化,标准化的数据也才更具开发利用价值。与此同时,数据标准化又是一项复杂的巨大工程,需要认清其自身特点,以便有效推动数据标准化工作。

  第一,数据标准化具有长期性特点,其不是一朝一夕可以完成的,尤其对已有数据资源进行标准化是非常困难的,需要有持久作战的心理准备。

  第二,科学性特点,数据标准化需要理论联系实际,需要服务于具体业务,不能随意标准化,要科学推进。

  第三复杂性特点,当前,不同部门和行业都有大量的应用系统,数据类型、存在方式等千差万别,标准化的过程将是十分复杂的。

  第四,紧迫性特色,数据标准化已成为影响经济社会高效运行的关键,打破信息孤岛,实现互联互通十分紧迫。

  第五,体系性特点,数据标准化涉及国家政策制度、标准规范、安全管理等各方面内容,需要统筹考虑、体系化推进。

  3、数据标准化的价值

  数据标准化是指按照一定规范与逻辑规划形成的有机整体,其是数据治理的基础,目的是实现数据价值的最大化。数据的标准化是一个统一规范、统一模式的过程,包括管理制度的标准化、评价体系的标准化、技术工具的标准化、数据元的标准化等等一套体系化的内容。通过实施数据标准化,可以进一步促进管理的规范化和应用的精准化,充分发挥大数据在政务服务、公共管理、市场监管、环境治理等方面的价值。

  针对我国城市数据治理的现状来说,数据标准化的具体价值将体现在以下几个方面:

  第一,通过数据标准化真正实现互联互通与信息流动,进一步带动物流、人流、资金流的高效流动,形成以信息资源为核心的新的资源体系。

  第二,通过数据标准化实现信息资源的价值开发,充分发挥底层、基础数据标准化带来的联动效应和乘数效应,推动数据挖掘规模化、价值化。

  第三,通过数据标准化提高运行管理效率,包括数据管理、开发利用与相关服务等方面,进一步提升政府服务与城市运行效率。

  第四,通过数据标准化可以降低建设运营成本,包括硬件配置、软件开发、运营维护与人才培训等方方面面,同时也将节省大量的管理成本,使建设运营标准化、简单化。

  4、数据标准化推进策略

  根据政府在数据治理中的角色定位,结合国家政务信息资源管理办法及数据开发利用实际情况,数据标准化要以城市数据中心建设与运维管理标准化为核心,有计划、有步骤、分层次地引入标准化手段,实施标准化策略,实现数据中心逐步向集约化、规范化方向发展,最终实现数据资源的资产化、资本化和价值化。

  第一,成立数据资源管理机构,设置数据运营官岗位,转变传统数据中心以技术支撑为主的状况,加强数据资源的统一管理与开发利用。组织机构不仅是实现数据治理的保障,也是推动数据标准化的关键,否则数据标准化工作将举步维艰。

  第二,根据国家在云计算中心、信息服务、信息安全等方面的标准规范,实施数据中心标准化建设与管理。引入事件管理、问题管理、配置管理、安全管理体系,使数据中心软硬件建设与安全运营得到有力保障。

  第三,推动理论与实践相结合,通过不断总结实践经验,然后升级为国家或行业内的数据标准。目前,数据标准化工作刚刚开始,但局部的数据标准化探索工作是非常重要的,通过对大量实践经验进行综合分析和优化提炼的数据标准,可起到降低成本,提高效率的作用。

  第四,建立数据标准化工作制度,强化数据标准化在整个数据治理体系中的作用,不断形成数据标准化的思维理念,逐步制定其数据标准化的工作规范,进一步指导数据治理体系建设,发挥数据标准化的价值。

  第五,数据标准化要分级分类,对于底层基础类数据要严格标准化,保障数据的唯一性、准确性,同时要加快完善体系化的数据定义、数据采集、数据分析和数据质量管理等方面的标准要求,不断实现时间的价值增值。

  第六,数据标准化要整体推进、循序渐进,加强对数据特点与应用规律的研究,保证体系化推进的科学性、合理性和前瞻性,同时通过制定计划,明确长远目标和标准层级,制定行之有效的推进计划与路线图,有计划、有步骤、分层次实现数据标准化体系。

  数据标准化任重道远,以上是国脉互联近几年在各地数据资源梳理与目录体系建设过程的经验总结,也是国脉互联研发的数据基因(DNA)系统思路与理念的体现,欢迎社会各界参与数据标准化的交流合作,为我国数据治理现代化建设做出更大贡献。

时间: 2024-10-03 17:05:38

数据标准化:数据资产化从0到1的起点的相关文章

转:数据标准化/归一化normalization

转自:数据标准化/归一化normalization 这里主要讲连续型特征归一化的常用方法.离散参考[数据预处理:独热编码(One-Hot Encoding)]. 基础知识参考: [均值.方差与协方差矩阵] [矩阵论:向量范数和矩阵范数] 数据的标准化(normalization)和归一化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较

数据标准化(归一化)处理

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和 量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性.原始数据经过数据标准 化处理后,各指标处于同一数量级,适合进行综合对比评价.以下是两种常用的归一化方法: 一.min-max标准化(Min-Max Normalization) 也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间.转换函数如下: 其中max为样本数据的

[转] [机器学习] 常用数据标准化(正则化)的方法

数据正则化 目的:为了加快训练网络的收敛性,可以不进行归一化处理 源地址:http://blog.sina.com.cn/s/blog_8808cae20102vg53.html 而在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级.当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用.因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理. 目前数据标准化方法有多种,归结起来可以分为直线型

numpy数组-标准化数据

标准化数据的公式: (数据值 - 平均数) / 标准差 1 import numpy as np 2 3 employment = np.array([ 4 55.70000076, 51.40000153, 50.5 , 75.69999695, 5 58.40000153, 40.09999847, 61.5 , 57.09999847, 6 60.90000153, 66.59999847, 60.40000153, 68.09999847, 7 66.90000153, 53.40000

数据标准化方法及其Python代码实现

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法.标准差法).折线型方法(如三折线法).曲线型方法(如半正态性分布).不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循. 常见的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena n

sklearn.preprocessing.StandardScaler数据标准化

原文链接:https://blog.csdn.net/weixin_39175124/article/details/79463993 数据在前处理的时候,经常会涉及到数据标准化.将现有的数据通过某种关系,映射到某一空间内.常用的标准化方式是,减去平均值,然后通过标准差映射到均至为0的空间内.系统会记录每个输入参数的平均数和标准差,以便数据可以还原. 很多ML的算法要求训练的输入参数的平均值是0并且有相同阶数的方差例如:RBF核的SVM,L1和L2正则的线性回归 sklearn.preproce

【数据分析&数据挖掘】三种数据标准化方式——离差标准化、标准差标准化&小数定标标准化

1 import pandas as pd 2 import numpy as np 3 4 5 # 标准化----去除量级的影响 6 7 # 3种方式 8 # (1)离差标准化 9 # 将数据做线性变化,将数据映射到[0,1]范围内, 10 # x = (x - min) / (max - min) 11 # 过大或者过小的异常值都会对结果产生影响 12 # 容易受到异常值影响 13 def max_min_sca(data): 14 """ 15 借助离差标准化 来标准化

Python数据标准化、归一化

在进行数据分析或者机器学习时,通常需要对数据进行预处理,其中主要的步骤就是数据标准化/归一化. 常用的数据标准化和归一化方法主要有: 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x)),x为一序列,即x={x1,x2,x3......},max(x)为最大值,min(x)为最小值 2. z-score标准化 y=(x-mean(x))/std(x),mean(x)指的是均值,std(x)指的是标准差,结果会形成均值为0,方差为1的序列 3. 直接归一化 y=x/sum

数据标准化

从广义上来讲,数据标准化的过程可以看作是业务系统内部或业务系统之间,乃至整个数据治理系统中的一个"语言"统一的过程. 只有语言统一,才能让同一业务系统或者不同业务系统之间有了对话.调用.通信的可能,从而保证使用的都是特定的某一个方言. 同样,数据标准化的过程反映程序及系统设计或架构级别时,就可以看作连接程序.机器.用户的一个枢纽,通过标准化让程序.机器.用户都明白某一个词素的确切含义,如果引入新系统或者新架构时又可以根据数据库中的信息进行对照从而确定是否有该词素,如果没有进行相应添加或