机器学习之数据探索——数据质量分析

数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质、描述数据的形态特征并解释数据的相关性。
换句话说,透过数据探索,我们应该可以回答如下问题:
样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求?

问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作:

数据质量分析

数据特征分析

需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序。比如,在数据质量分析中,就牵涉到数据预处理中的数据清洗。
本文将主要介绍数据质量分析的相关工作。

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,脏数据包括以下方面:

1 缺失值

2 异常值

3 不一致的值

4 重复数据以及含有特殊符号(如#、¥、*)的数据

对于第四种数据,理解起来比较简单,处理也很容易,因此主要针对前三种数据进行分析,至于处理手段,所用到的方法是数据预处理中的数据清洗内容。

1 缺失值

数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。

(1)缺失值产生原因
1)有些信息暂时无法获取,或者获取代价太大。
2)有些信息被遗漏。可能是忘记填写或对数据理解错误等因素,也可能是由于数据采集设备的故障造成。
3)属性值不存在。在某些情况下,对一些对象来说某些属性值不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入等。

(2)缺失值处理方式
1)删除元组
将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的。然而这种方法丢弃了大量隐藏在这些对象中的信息。在信息表中对象很少的情况下会影响到结果的正确性,可能导致数据发生偏离,从而引出错误的结论。
2)数据填补
数据挖掘中常用的有以下几种补齐方法:
特殊值填充、平均值填充、就近补齐
使用算法对缺失值进行估计,包括K最近邻法、回归、期望值最大化方法
3)不处理
这种方式对模型有特定要求,需要模型能够处理缺失值。

2 异常值

异常值是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。

(1)异常值发现
1)简单计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出了合理的范围。如客户年龄的最大值为199岁,则该变量的取值存在异常。
2)3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003,属于极个别小概率事件。
如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
3)箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于Qu+1.5IQR的值。QL成为下四分位数,表示全部观察值中有四分之的数据取值比它小;Qu称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数与下四分位数之差,其间包含了全部观察值的一半。

(2)异常值处理方式
异常值的处理与缺失值类似,简要如下:
1)删除含有异常值的记录
2)将异常值视为缺失值,使用缺失值处理方法来处理
3)不处理

3 一致性

数据不一致性是指数据的矛盾性、不相容性等。
在数据挖掘过程中,不一致数据的产生主要发生在数据集成过程中,这可能是由于从不同的数据源、对于重新存放的数据未能进行一致性造成的。例如,两张表中都存储了用户的电话号码,但在用户的电话号码发生改变时只更新了一张表中的数据,那么这两张表中就有了不一致的数据。

声明:本文有关内容源于《python数据挖掘与实践》

原文地址:https://www.cnblogs.com/pythonfl/p/12431014.html

时间: 2024-10-09 16:52:05

机器学习之数据探索——数据质量分析的相关文章

机器学习之数据探索——数据特征分析(分布分析)

数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系. 数据特征分析包括以下几个分析角度: 1.分布分析 2.对比分析 3.统计量分析 4.帕累托分析 5.正态性检验 6.相关性分析 其上每一个分析角度都有丰富的内容. 分布分析 顾名思义,分布分析研究数据的分布特征和分布类型.对于定量数据,需要了解分布形式,发现某些特大特小的异常值,通常用到散点图

Python机器学习之数据探索可视化库yellowbrick-tutorial

背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发

数据质量分析

转自:http://www.tipdm.org/ganhuofenxiang/1026.jhtml 数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因.数据挖掘从业者常常会说"Garbage In ,Garbage Out"即"垃圾进,垃圾出",装入的数据是垃圾,计算出来的结果也是垃圾.很多的时候我们过度重视重视算法,而忽略数据本身,算法固然重要,但是优质完整的数据却是要优于好的算法,假设如数据质量一样,数据特征选择

数据分析之数据质量分析和数据特征分析

1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.在常见的数据挖掘工作中,脏数据包括: (1)缺失值:     (2)异常值:     (3)不一致的值:     (4)重复数据及含有特殊符号(如#.¥.*)的数据. 1.1缺失值分析        数据的缺失

Python机器学习之数据探索可视化库yellowbrick

背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发

利用python进行泰坦尼克生存预测——数据探索分析

最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览-->数据预处理(缺失值.离散值等)-->变量转换(构造新的衍生变量)-->数据探索(提取特征)-->训练-->调优-->验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致

数据中台专栏(三):数据质量分析及提升

本文作者:笑天 袋鼠云数据解决方案专家.拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔.索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作.近几年主攻大数据方向,包括数据中台建设.大数据治理.工业领域的数据应用等项目开发和实施. 正文:正文 大量的信息成倍增加,但有用的信息却非常有限. 信号是真相,噪声却使我们离真相越来越远. --<信号与噪声:大数据时代预测的科学与艺术> [美]纳特·西尔弗 一般情况下,企业都有多套

数据探索综合指南EDA 转发

数据探索综合指南 苏尼尔·雷(SUNIL RAY) 2016年1月10日 总览 有关数据探索(EDA)的完整教程 我们涵盖了数据探索的几个方面,包括缺失值估算,异常值去除和特征工程的技巧 介绍 没有数据浏览的捷径.如果您处于一种状态,那么机器学习可以使您摆脱每次数据风暴,相信我,事实并非如此.经过一段时间后,您将意识到自己正在努力提高模型的准确性.在这种情况下,数据探索技术将助您一臂之力. 我可以自信地说,因为我经历过很多这样的情况. 我从事业务分析专业近三年了.在我最初的日子里,我的一位导师建

机器学习技术在达观数据的实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统.作弊监测系统.用户建模系统等多个基于大数据技术的应用系统.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始人 纪传俊) CIK