《数据挖掘概念与技术》--第三章 数据预处理

一、数据预处理

1、数据如果能够满足其应用的要求,那么他是高质量的。

数据质量涉及许多因素:准确性、完整性、一致性、时效性、可信性、可解释性。

2、数据预处理的主要任务:数据清洗、数据集成、数据规约、数据变换。

二、数据清理:试图填充缺失值,光滑噪声、识别利群点、纠正数据中的不一致。

1、缺失值的处理:

1)忽略元组:缺少类标号时通常这么做。但是忽略的元组其他属性也不能用,即便是有用的。

2)人工填写:该方法很费事费时,数据集很大、缺失值很多时可能行不通。

3)使用一个全局常量填充缺失值:将缺失值的属性用同一个常量替换。(方法简单但不可靠)

4)使用属性的中心度量(均值、中位数)填写缺失值:对于正常的(对称的)数据分布,可以使用均值;对于倾斜数据(非对称)应该使用中位数。

5)使用与给定元组同一类的所有样本的属性均值或中位数: 利用另外一个属性分类数据,计算缺失值的属性值该是多少(均值或中位数)。

6)使用最可能的值填充:利用回归、贝叶斯形式化风阀的基于推理的工具或决策树归纳确定。

3)~6)方法会使数据有变差,但是6)是最流行的策略。另外,缺失值并不意味着数据有错误。

2、噪声数据

噪声:被测量的变量的随机误差或方差。

数据光滑技术:

1)分箱:排序后的数据按等频分箱,

然后:

用箱均值光滑:箱中每个值都被替换为箱中的均值。

用箱中位数光滑:箱中的每一个只都被替换为该箱的中位数。

用箱边界光滑:给定箱中的最大和最小值同样被视为箱边界,箱中每个值都被替换为最接近的边界值。

2)回归:可以用一个函数拟合数据来光滑数据。

3)利群点分析:通过如聚类来检测利群点。

许多数据光滑的方法也用于数据离散化(一种数据变化形式)和数据归约。

数据清理过程:

1)第一步:偏差检测。导致偏差的因素很多,认为输入错误、有意错误、数据退化(过时数据)、编码不一致、设备错误、系统错误。

如何进行偏差检测?

使用任何关于数据性质的知识: 元数据(描述数据的数据)、数据的基本统计描述(均值、中位数、众数、方差、标准差等)、唯一性规则、连续性规则、空值规则。

3、数据集成

数据挖掘经常需要数据集成——合并来自多个数据存储的数据。

(1)实体识别问题:  模式集成和对象匹配可能需要技巧,例如如何让计算机识别customer_id和另外一个数据库的cust_number是同一属性?—— 利用元数据,每个属性的元数据包括名字、含义、数据类型和属性的值的允许范围,以及处理空值的规则。这些元数据可以用来帮助避免模式集成的错误,还有助于变化数据。

(2)冗余和相关分析:  一个属性 如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的;属性或维命名的不一致也可能导致结果数据集的冗余。

解决: 有些冗余可以被相关分析检测到。对于标称数据,使用X2(卡方)检验。对于数值属性,我们使用相关系数和协方差,评估一个属性的值如何随另一个变化。

1)标称数据的X2相关检验

两个属性A,B。A属性构成列,B属性构成行(构成二维表),则(Ai,Bj)表示A的第i个值与B的第j个值构成联合事件。X2的值可计算:

Oij是联合事件(Ai,Bj)的观测频度,即实际计数。而eij是(Ai,Bj)的期望频度,由以下公式计算:

n是数据元组的个数,count表示值ai的个数。

X2统计检验假设A,B是独立的。如果拒绝该假设,则可以说A,B是统计相关的。

2)数值数据的相关系数

通过计算属性A和B的相关系数(又称Pearson积矩系数)估计这两个属性的相关度 r A,B:

表示标准差A,B。n是元组的个数。

另外,-1<=r A,B <= +1,如果 r A,B大于0,则A,B是正相关的,意味着A值随B值增加而增加。而且值越大相关性就越强。 因此,一个较高的 rA,B值意味着A或B可以作为冗余而被删除。如果值等于0,则A和B是独立的,并且它们之间不存在相关性。如果值小于0,则A,B是负相关,一个值随另一个值减少而增加,这意味着一个属性阻止另一个的出现。

注意:相关性并不蕴涵因果关系,也就是说,如果A和B是相关的,不意味着A导致B或者B导致A。

3)数值数据的协方差:

A,B的均值又称为A,B的期望值:

A,B的协方差定义为:

可以发现协方差与相关度的关系:

对于两个趋向于一起变化的属性A,B。如果A大于A的期望,则B很可能大于B的期望。因此,A和B的协方差为正;另外,一个属性小于它的期望,而另一个大于它的期望,则A,B协方差为负。

如果A,B是独立的,即不具有相关系,则E(A·B)=E(A)·E(B),则协方差Cov(A,B)=E(A·B)-E(A)·E(B)=0;然而,反过来则不成立,某些随机变量(属性)对可能具有协方差0,但不是独立的。

(3)元组重复问题

(4)数据值冲突的检测与处理

例如:一个学校是A-F打分,另一个学校是1-10分打分。很难再两所学校之间制定精确的成绩变换规则,信息交换也变得困难。

4、数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。

(1)数据归约策略包括 维归约、数量归约、数据压缩

1)维归约:减少所考虑的随机变量或属性的个数。方法有 小波变换 和 主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。

2)数量归约:用替代的、较小的数据表示形式替换原数据。

3)数据压缩:使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,该数据归约为 无损的,近似重构原数据称为有损的。

(2)离散小波变换(DWT):一种线性信号处理技术,用于数据向量X时,将它变成不同的数值小波系数向量X‘。

(3)主成分分析:(PCA)又称K-L方法,搜索k个最能代表数据的n维正交向量,其中k<=n。

(4)属性子集选择:通过删除不相关或冗余的属性(维)减少数据量。目标是找出最小属性集,是的数据类的概率分布尽可能地接近使用所有属性得到的原分布。另外,在缩小后的属性集上挖掘能够减少出现在发现模式上的属性数目,使得模式更易于理解。

(5)回归和对数线性模型:参数化数据归约

回归和对数线性模型可以用来近似给定的数据。

对数线性模型:近似离散的多维概率分布。给定n维元组的集合,我们把每个元组看做n维空间的点,对于离散属性集,尅使用对数线性模型,基于维组合的一个较小子集,估计 多维空间中每个点的概率。

(6)直方图

直方图使用分箱来近似数据分布,是一种流行的数据归约形式。

(7)聚类

聚类技术把数据元组看做对象,将对象划分为群或簇,使得在一个簇中的对象相互“想死”,而与其他簇中的对象“相异”。通常,相似性基于距离函数。

(8)抽样

抽样可以作为一种数据归约的技术使用,因为它允许用数据小得多的随机样本表示数据集。

s个样本的无放回简单随机抽样(SRSWOR):从N个元组中抽取s个样本《s<n》其中任意元组被抽取的概率均为1/N(等可能的)。

s个样本的有放回简单随机抽样(SRSWR):一个元组被抽取后,又被放回数据集中,以便再次被抽取

簇抽样:数据集放入M个互不相交的簇,可以得到s个簇的简单随机抽样(SRS),s<m。

分层抽样:数据集被划分成互不相交的部分,称为“层”。数据是倾斜时,这样可以帮助确保样本的代表性(eg.按年龄分层)。

5、数据变换与数据离散化

(1)数据变换策略:

1)光滑:去掉数据中的噪声。技术包括分箱、回归、聚类。

2)属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助数据挖掘。

3)聚集:对数据惊醒汇总或聚集。

4)规范化:把属性数据按比例缩放,使之落入一个特定的区间。

5)离散化:数值属性(eg。年龄)的原始值用区间标签(eg. 0-10,11-20)或概念标签(youth,adult,senior)替换。

6)由标称数据产生概念分层:将某个属性(eg. street)泛化到较高的概念层(city)。

(2)规范化技术

最小-最大规范化:对原始数据惊醒线性变换。

vi映射到区间【new_minA,new_maxA】

z分数(z_score)规范化(零均值规范化):属性的值基于A的均值(平均值)和标准差规范化:

小树定标规范化:通过移动属性A的值的小数点位置进行规范化。

(v’i<1)

(3)通过分箱离散化:分箱并不使用类信息,因此事一种非监督的离散化技术,对用户制定的箱个数很敏感,也容易受离群点的影响。

(4)通过直方图分析离散化

之风图分析也是一种非监督离散化技术,因为它不使用类信息。

(5)通过聚类、决策树和相关分析离散化

聚类将数学的值划分成簇或组;为分类生产分类决策树的技术 也可以用于离散化,离散化的决策树方法是监督的,它们使用了类标号(分类)。

(6)标称数据的概念分层产生

标称属性具有 有穷多个不同值,值之间无序。如地理位置,商品类型。

四中变成数据概念分层产生的方法:

1)由用户或专家在模式级显示地说明属性的部分序。(标称属性或维的概念分层涉及一组属性,由用户或专家说明属性的偏序或全序,然后很容易定义概念分层。)

2)通过显式数据分组说明分层结构的一部分。对于小部分数据,显式说明分组。

3)说明属性集但不说明它们的偏序:用户可以说明一个属性集形成概念分层,但并不显式说明它们的偏序,系统可以试图自动产生属性的序,构造有意义的概念分层。

例如: 高层概念的属性一般包含较少的不同值,而较低概念层的属性值较多。(并非所有情况都符合, 如年由365天,月30天,周7天)

4)只说明部分属性集

来自为知笔记(Wiz)

时间: 2024-08-02 02:49:04

《数据挖掘概念与技术》--第三章 数据预处理的相关文章

数据挖掘-概念与技术-第10章聚类作业题

介绍基于划分的聚类方法 给定n个对象的集合,将对象划分成K个簇.每个簇至少包含一个对象. K-Means伪代码 输入:k:簇的数目 D: 包含n个对象的数据集 输出:k个簇的集合 方法: (1) 从D中任意选择K个对象作为初始簇的中心. (2) repeat a) 根据簇中对象的均值,将每个对象分配到最相似的簇. b) 更新簇的均值,计算每个簇中对象的均值. until 每个簇的对象情况不再发生变化 介绍基于层次的聚类方法 有两种基于层次的聚类方法,层次聚类可以是凝聚的或者是分裂的. 凝聚是自底

【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量.数据框等多种对象,返回逻辑值. > attach(data) The following objects are masked fromdata (pos = 3): city, price, salary > data$salary=replace(salary,salary>5,NA) > is.na(salary) [1] FALSEFALSE TRUE

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

Java 线程第三版 第三章数据同步 读书笔记

多线程间共享数据问题 一.Synchronized关键字 atomic一词与"原子"无关,它曾经被认为是物质的最小的单元,不能再被拆解成更小的部分. 当一个方法被声明成synchronized,要执行此方法的thread必须先取得一个token,我们将它称为锁.一旦该方法取得(或者说是获得)锁,它将运行此方法然后释放掉(或者返回)此锁.不管方法时怎样返回的(包括通过异常)该锁会被释放. 二.Volatile关键字 如果变量被标示为volatile,每次使用该变量时都必须从主寄存器中读出

C和指针 (pointers on C)——第三章——数据

第三章 数据 本章是非常重要的,在特定范围内使用.链接属性.存储类型.const.extern和statickeyword使用.几乎所有的公司是C++在采访的第一个问题. 总结: 具有external链接属性(包含external.internal.None)的实体在其它语言的术语里称为全局实体(global),全部cpp里的函数都能够訪问它. 仅仅要声明的时候在函数体或代码块外部(包含main函数).默认的链接属性都是external. 假设声明的在代码块内部,说明它引用的是一个全局变量. 具

爬虫学习之第三章数据存储

第三章 数据存储 第一节 json文件处理: 什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式.它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据.简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言. 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率.更多解释请见:https://baike.baidu.com/item/JS

【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解

1.数据挖掘是指从大量的数据中提取有用的知识信息的一种模式. (1)因为现在的生活工作中随时随刻都在产生大量的数据和都需要将这些数据转变为有用的信息和知识,是因为需求的不断增加才会突显出数据挖掘技术的重要性,所以数据挖掘应该是信息技术发展带来的结果. (2)数据挖掘应该是这些技术融合而不是简单的变革. (3)数据库技术带动了数据收集技术的发展和数据库建立的机制,有了有效的数据管理,包括数据存储.检索.查询和事务处理机制.大量的数据库系统提供的查询和事务处理,自然地产生了对数据分析和理解的必要性,

数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理 数据质量的三个要素:准确性.完整性和一致性. 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据. 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局常量填充缺失值 4.使用属性的中心度量填充缺失值:中位数 5.使用与给定元组属同一类的所有样本的属性均值或中位数 6.使用最可能的值填充缺失值:回归/贝叶斯/决策树 第6种是最流行的策略 3.2.2

《数据挖掘概念与技术》——第四章 数据仓库与联机分析处理

一.基本概念 1.宽泛概念:数据仓库是一种数据库,它与的那位的操作数据库分别维护.数据仓库系统允许将各种应用系统集成在一起,为同一的历史数据分析提供坚实的平台,对信息处理提供支持. 另一种说法: 数据仓库是一个面向主题的.集成的.时变的.非易失的数据集合,支持管理者的决策过程. 1)面向主题的:数据仓库围绕一些重要的主题,如顾客.供应商.产品和销售组织.关注点是决策者的数据建模与分析,不是在日常操作和事务处理上. 2)集成的:构造数据仓库是将多个易购数据源,如关系数据库.一般文件.联机事务处理记