数据挖掘预处理

数据预处理的主要任务如下:

(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性

(2)数据集成:集成多个数据库,数据立方体,文件

(3)数据变换:规范化(消除冗余属性)和聚集(数据汇总),将数据从一个较大的子空间投影到一个较小的子空间

(4)数据归约:得到数据集的压缩表示,量小,但可以得到相近或相同的结果

(5)数据离散化:数据规约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据比较重要。

1.数据清洗

(1)处理空缺值:

A.  忽略元组

B.人工填写空缺值

C.使用一个全局变量填充空缺值

D.使用属性的平均值填充空缺值

E.使用与给定元组属同一类的所有样本的平均值

F.使用最可能的值填充空缺值,使用像Bayesian公式或判定树这样的基于推理的方法(目前最流行的方法是基于这个思路的)

注意:并非所有的空缺值都是说数据有错误,如果该值允许空缺值,那么说明数据是没问题的,但是应该给与空缺值一个合理的意义。

2.处理噪声数据

噪声:一个测量变量中的随机错误或偏差

A.分箱(binning)(等深或等宽分箱)

首先排序数据,并将他们分到等深的箱中

然后可以按箱的平均值平滑,按箱中值平滑,按箱的边界值平滑

B.聚类:检测并且去除孤立点

C.计算机和人工检查结合:计算机检测可疑数据,然后对他们进行人工判断

D.回归:通过让数据适应回归函数来平滑数据,对连续的数字型数据较好

3.数据变换

A.平滑:去除数据中的噪声

B.聚集:数据汇总,数据立方体的构建,数据立方体的计算/物化(一个数据立方体在方体的最底层叫基本方体,基本方体就是已知存在的数据,对现有的数据按照不同维度进行汇总就可以得到不同层次的方体,所有的方体联合起来叫做一个方体的格,也叫数据立方体。数据立方体中所涉及到的计算就是汇总)

C.数据概化:沿概念分层向上汇总,数据立方体的不同的维之间可能存在着一个概念分层的关系

D.规范化:将数据按比例缩放,使这些数据落入到一个较小的特定的区间之内。方法有:

a.最小----最大规范化

b.Z-score规范化

c.小数定标规范化

E.属性的构造:通过现有属性构造新的属性,并添加到属性集中

4.数据归约

(1)数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同(或几乎相同的)分析结果

(2)数据归约策略

A.数据立方体聚集:

数据立方体是根据不同的维度对数据进行汇总,立方体的越顶层,其汇总程度就越高,数据量就越少。

对数据的表示就越概化。最底层的方体对应于基本方体,基本方体对应于感兴趣的实体。

在数据立方体中存在着不同级别的汇总,数据立方体可以看做方体的格,每一个较高层次的抽象将进一步减少结果数据集。

数据立方体提供了对预计算的汇总数据的快速访问,原则是使用与给定任务相关的最小方体,并且在可能的情况下,对于汇总数据的查询应当使用数据立方体。

B.维归约:用来检测或删除不相关的或基本不相关的属性或冗余属性或维,来减少数据量。

属性子集的选择:找出最小属性集,使得数据类的概念分布尽可能的接近使用所有属性的原分布,把不相关的属性全部删除。

可以减少出现在发现模式上的属性的数目,使得模式便于理解。

主要方法有:启发式的(探索式的try and error)方法,该方法包括逐步向前选择(从空属性集开始,每次选择都选择当前属性集中最符合的目标,

最好的属性,加到当前的属性集中,这样逐步的向前选择,把有用的属性一个一个的添加进来),

逐步向后删除(从属性全集开始,每次删除还在当前属性集中的最不适合的那个属性,最坏的属性,这样一个一个的删除,最后留下来的就是相关的属性),

向前选择和向后删除相结合(每次选择一个最好的属性,并且删除一个最坏的属性),判定归纳树

C.数据压缩:使用一些编码机制来压缩数据集。无损压缩(可以根据压缩之后的数据完整的构造出压缩之前的数据wrar. zip等,如字符串压缩)

和有损压缩(无法通过压缩之后的数据来完整的构造出压缩之前的数据,如音频/视频压缩,有时可以在不解压缩整体数据的情况下,重构某个片段,主要应用于流媒体传输)。

两种有损数据压缩的方法:小波变换和主要成分分析

D.数值归约:使用较小的,替代的数据来估计,替换,表示原数据(用参数模型):通过选择替代的,较小的数据表示形式来减少数据量。

方法主要有:有参方法(使用一个参数模型来估计数据,最后只要存储参数即可,有线性回归方法,多元回归,对数线性模型(近似离散的多维数据概率分布))和

无参方法(直方图(将某属性的数据划分为不相交的子集或桶,桶中放置该值的出现频率,其中桶和属性值的划分规则有:等深,等宽,V-最优,MaxDiff),

聚类(将数据集划分为聚类,然后通过聚类来表示数据集,如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则该方法无效。

时间: 2024-11-10 01:02:00

数据挖掘预处理的相关文章

《数据挖掘概念与技术》--第三章 数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

数据挖掘笔记(三)—数据预处理

1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义:统一多数据源的属性值编码:去除惟一属性:去除重复性:去除可忽略字段:合理选择关联字段. 4.处理空缺值的方法:忽略该记录:去掉属性:手工填写空缺值:使用默认值:使用属性平均值:使用同类样本平均值:预测最可能的值. 5.噪声数据

数据挖掘——数据预处理

数据预处理(Data Preprocess):通过采用数据清理.数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘. 在当前社会中,由于大数据.数据源不唯一等原因使得在真实数据库存放的数据存在噪声.缺失和不一致的问题.基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也很难具有说服力.(地基都没夯实就去建造高楼大厦谁敢住?)为了解决实际中遇到的这些问题,数据预处理技术顺势产生.常见的几种数据预处理的方式主要有: 1.数据清洗.主要用于去除噪声数据(包括错误数据和离

数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理 数据质量的三个要素:准确性.完整性和一致性. 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据. 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局常量填充缺失值 4.使用属性的中心度量填充缺失值:中位数 5.使用与给定元组属同一类的所有样本的属性均值或中位数 6.使用最可能的值填充缺失值:回归/贝叶斯/决策树 第6种是最流行的策略 3.2.2

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规

数据挖掘——(二)数据预处理

数据预处理 1. 数据质量的三个要素:准确性.完整性.一致性 2. 数据预处理的主要任务: 数据清理.数据集成.数据归约.数据变换 一. 数据清理 数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性. 通常是一个两步的迭代过程,包括偏差检测和数据变换 注意:在某些情况下,缺失值并不意味着数据有误.在理想情况下,每个属性应当有一个或多个关于控制条件的规则.这些规则可以说明是否允许空值,并且/或者说明这样的空值应当如何处理或转换. 二. 数据集成 数据集成将来自多个数据源的数据

[Python数据挖掘]第4章、数据预处理

数据预处理主要包括数据清洗.数据集成.数据变换和数据规约,处理过程如图所示. 一.数据清洗 1.缺失值处理:删除.插补.不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) import pandas as pd #导入数据分析库Pandas from scipy.interpolate import lagrange #导入拉格朗日插值函数 inputfile = '../data/catering_sale.xls' #销量数据路径 outputfile = '../tmp

数据挖掘过程中:数据预处理

原文:http://www.itongji.cn/article/0Q926052013.html 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面.数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果.数据无量纲化处理

python大数据挖掘系列之淘宝商城数据预处理实战

数据清洗: 所谓的数据清洗,就是把一些异常的.缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响.拿到数据后,我们进行数据清洗分为两方面: 缺失值发现:可以查找 异常值发现:画图分析 缺失值:在下载数据.搜集数据的时候刚好就缺失.可以通过查找的方法去发现. 异常值:不一定就是异常,可能就是客观存在,但是这个值对于总的数据来说是一个就比较特殊点.可以通过画散点图发现. 这两方面的处理方法如下: 缺失值处理