数据预处理技术
数据清理:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除
数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。
数据变换:平滑、聚集、规范化、最小 最大规范化等
数据归约:维归(删除不相关的属性(维))、数据压缩(PCA,LDA,SVD、小波变换)、数值归约(回归和对数线形模型、线形回归、对数线形模型、直方图)
数据离散化和概念分层
1、数据清理:格式标准化、异常数据清除、错误纠正、重复数据的清除
通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据,主要是达到如下目标:
(1)数据集压缩处理,主要策略:
数据聚集、维规约、数据压缩、数据规约
(2)空缺值处理,主要策略:
1)忽略元组、人工填写空缺值、使用固定值
2)平均值(中位数等)、各种插值处理(牛顿插值、Lagrange插值等)
3)使用一些分类方法如KNN等。
(3)噪声数据处理,主要策略:
数据平滑技术:
1)分箱处理
箱的深度:表示不同的箱里有相同个数的数据。
箱的宽度:每个箱值的取值区间是个常数。
2)平滑方法:
按箱平均值平滑、
按箱中值平滑、
按箱边界值平滑
3)聚类技术:
每个簇中的数据用其中心值代替、
识别检测并忽略孤立点
4)回归技术:
通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。
线形回归、
多线形回归
2、数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。
3、数据变换:
平滑、聚集、数据概化、规范化、最小 最大规范化、小数定标规范化、属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解
4、数据归约:
(1)、维归约
删除不相关的属性(维)来减少数据量。
找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布,一般可以通过贪心算法,逐步向前选择,逐步后向删除,向前选择和后向删除相结合,判定树归纳
(2)、数据压缩
主成分分析PCA,LDA,SVD
小波变换:将数据向量D转换成为数值上不同的小波系数的向量D’,对D’进行剪裁,保留小波系数最强的部分
(3)、数值归约
回归和对数线形模型、线形回归、对数线形模型、直方图、等宽、等深、V-最优、maxDiff、聚类、多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。
5、离散化和概念分层
离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。
对于给定的数值属性,概念分层定义了该属性的一个离散化的值。
数值数据离散化和概念分层生成方法有:分箱、直方图分析