数据质量分析

转自:http://www.tipdm.org/ganhuofenxiang/1026.jhtml

数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因。数据挖掘从业者常常会说“Garbage In ,Garbage Out”即“垃圾进,垃圾出”,装入的数据是垃圾,计算出来的结果也是垃圾。很多的时候我们过度重视重视算法,而忽略数据本身,算法固然重要,但是优质完整的数据却是要优于好的算法,假设如数据质量一样,数据特征选择合理,就算法的本身而言是不会有特别大的差异的。

那么,基于以上的认识,在做数据挖掘建模之前,往往先要做相关的数据准备,今天我们重点介绍一下数据质量分析。

数据质量分析的主要任务就是检查原始数据中是否有脏数据,脏数据一般是指不符合要求,以及不能直接用来建模分析的数据,主要包括:

缺失值

异常值

不一致的值

重复数据及含有特殊符号(如#、¥、*)的数据

缺失值产生的原因

数据缺失主要包括记录缺失和记录中某个字段缺失,数据缺失的原因有很多主要包括:

有些信息暂时无法获取,或者获取信息的代价太大。

信息被遗漏。这里又有两种情况,一种是认为因素,输入时认为不重要、忘记填写或对数据理解错误;另一种是物理故障,数据采集设备、存储介质、传输媒体的故障。

属性值不存在。在某些情况下,缺失值并不意味着数据有错误,如一个未婚者的配偶姓名、一个儿童的固定收入等。

缺失值的影响

数据缺失不仅会影响对业务的正常理解,更会影响建模的质量。数据有缺失会使其在建模的过程中丢失大量有用信息,有的模型不能够处理缺失值,比如SVN,最终会导致模型混乱,输出不可靠的信息。

异常值分析

异常值分析是检验数据是否含有录入错误以及含有不合常理的数据。异常值也称为离群点,表现为样本中的个别值,其数值明显偏离其余的观测值。异常值的分析也称为离群点分析。不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响。分析异常值产生的原因,常常成为发现问题进而改进决策的契机。常用分析方法:简单统计量分析、3σ原则、箱型图分析。

简单统计量分析

最常用的统计量主要是最大值和最小值,判断这个变量中的数据是不是超出了合理的范围。比如说,如身高的最大值为5米,则该变量的数据存在异常(巨人症也没这么高),某国家干部履历:12岁参加工作或者某客户年龄199岁,这些都是异常值。

需要注意的是异常值是否真正“异常”,要结合业务背景分析其产生的原因,例如航空信息数据中票价为空值,票价最小值为0,折扣率最小值为0、总飞行公里数大于0的记录。正常分析这数据可能是存在问题的,但是结合业务去理解就知道这样的数据是常旅客积分兑换造成的。

3 σ 原则

如果数据服从正态分布,在3σ原则下,异常值被定义为与平均值的偏差超过三倍标准差的值。

箱型图分析

箱型图分析可以直观地表现数据分布的本来面貌,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求。判断异常值的标准以四分位数和四分位距为基础,具有一定的鲁棒性。多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响。

一致性分析

在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,被挖掘数据来自于不同的数据源,重复存放的数据未能进行一致性更新。如两张表中都存储了用户的地址,在用户的地址发生改变时,如果只更新了一张表中的数据,那么这两张表中就有了不一致的数据。

重复数据及含有特殊符号

如果遇到重复数据及含有特殊符合的数据,检查一下产生的原因,一般情况的处理方式,通通删掉。

数据质量分析的常用方法就介绍这些,希望可以对各位带来帮助,重视数据质量分析,别让你数据沦为鸡肋。

时间: 2024-09-30 00:39:06

数据质量分析的相关文章

数据分析之数据质量分析和数据特征分析

1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.在常见的数据挖掘工作中,脏数据包括: (1)缺失值:     (2)异常值:     (3)不一致的值:     (4)重复数据及含有特殊符号(如#.¥.*)的数据. 1.1缺失值分析        数据的缺失

机器学习之数据探索——数据质量分析

数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质.描述数据的形态特征并解释数据的相关性. 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作: 数据质量分析 数据特征分析 需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序.比如,在数据质量分析中,就牵涉到数据预处理中的数据

数据中台专栏(三):数据质量分析及提升

本文作者:笑天 袋鼠云数据解决方案专家.拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔.索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作.近几年主攻大数据方向,包括数据中台建设.大数据治理.工业领域的数据应用等项目开发和实施. 正文:正文 大量的信息成倍增加,但有用的信息却非常有限. 信号是真相,噪声却使我们离真相越来越远. --<信号与噪声:大数据时代预测的科学与艺术> [美]纳特·西尔弗 一般情况下,企业都有多套

第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析

前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据工程到底是如何实施的呢? 本文将以IBM的Itelligent Utility Network产品为例阐述智能电网中的数据工程,它是IBM声称传统电网向智能电网转变的整体方案(看过上篇文章的童鞋想必会清楚这样的说法是片面狭隘的,它只能算是智能电网中的数据工程). 另一方面,如今是一个数据爆炸的时代,

数据质量及数据清洗方法

先对其进行介绍:    数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息.纠正存在的错误,并提供数据一致性.[1] 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等.因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据.有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的

【数据挖掘导论】——数据质量

数据质量 数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的.因此数据常常不能在数据的源头控制质量.为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理):使用可以容忍低质量数据的算法. 测量和数据收集问题 完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声,伪像,偏倚,精度和准确度.接着讨论测量和数据收集的数据质量问题:离群点,遗漏和不一致的值,重复数据. 测量误差(me

[转]Oracle 索引质量分析

http://blog.csdn.net/leshami/article/details/23687137 索引质量的高低对数据库整体性能有着直接的影响.良好高质量的索引使得数据库性能得以数量级别的提升,而低效冗余的索引则使得数据库性能缓慢如牛,即便是使用高档的硬件配置.因此对于索引在设计之初需要经过反复的测试与考量.那对于已经置于生产环境中的数据库,我们也可以通过查询相关数据字典得到索引的质量的高低,通过这个分析来指导如何改善索引的性能.下面给出了演示以及索引创建的基本指导原则,最后给出了索引

数据质量监控

数据质量的定义 从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据. 数据质量的标准 完整性:数据记录是否缺失:字段内容是否缺失. 一致性:字段内容是否满足应有的规则,比如电话号码,IP等:数据之间存在的逻辑关系是否满足,比如pv>=uv,百分比不能超过100%等. 准确性:乱码:异常大或者异常小 及时性:SLA 数据质量的评测流程 数据质量需求分析 确定评价对象和范围 选取数据质量维度及评价标准 确定质量测度及评价方法 运用方法进行评价 结果分析和评级 质量结果和报告 数据

方向性地理数据交互式分析 Rocscience Dips v6.008 1CD

Rocscience Dips v6.008 1CD Rocscience Unwedge v3.025 1CD Rocscience Dips v5.103 (方向性地理数据交互式分析) Dips Dips用于对方向性地理数据进行交互式分析.它是专为基于地质数据的定位交互分析设计的,是适合新手. 业余爱好者和专业人士的地质数据分析工具. Dips 模块的特点: * 输入数据完整的电子数据表: * 均衡角度 ⁄ 均衡面积的投影: * 点.轮廓.玫瑰图等的方位表示: * 点.轮廓图等的覆盖: *