数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理  

  数据质量的三个要素:准确性、完整性和一致性。

3.1.2 数据预处理的主要任务

  数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。

  数据集成:

  数据归约:

3.2 数据清理

3.2.1 缺失值

  1.忽略元组

  2.人工填写缺失值

  3.使用一个全局常量填充缺失值

  4.使用属性的中心度量填充缺失值:中位数

  5.使用与给定元组属同一类的所有样本的属性均值或中位数

  6.使用最可能的值填充缺失值:回归/贝叶斯/决策树

  第6种是最流行的策略

3.2.2 噪声数据

  噪声:被测量的变量的随机误差或方差。

  数据光滑技术:

  分箱:通过考察数据的近邻来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱考察近邻的值,因此它进行局部光滑。

  例:4,8,15,21,21,24,25,28,34

  分箱:每箱3个值

  箱1:4,8,15

  箱2:21,21,24

  箱3:25,28,34

  用均值光滑:

  箱1:9,9,9

  箱2:22,22,22

  箱3:29,29,29

  用箱边界光滑:宽度越大,光滑效果越明显  

  箱1:4,4,15

  箱2:21,21,22

  箱3:25,25,34

  回归:用一个函数拟合数据来光滑数据。线性回归涉及找到拟合两个属性的最佳直线,使得一个属性可以用来预测另一个。

  离群点分析:通过聚类来检测离群点。

3.2.3 数据清理作为一个过程

3.3 数据集成

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个。

  对于标称数据,用卡方检验,对于数值属性,用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。

  1.标称数据的卡方相关检验

  卡方统计检验假设A和B是独立的。

  例3.1 使用卡方的标称属性的相关分析

  假设调查了1500个人,记录性别,是否小说,那么有两个属性:性别、是否小说。

  合计
小说 250(90) 200(360) 450
非小说 50(210) 1000(840) 1050
合计 300 120 1500

  单元(男,小说)的期望频率是:

  e11=count(男)*count(小说)/n=300*450/1500=90

  根据卡方值公式:

    

  自由度是(2-1)(2-1)=1

  2.数值数据的相关系数

  对于数值数据,可以通过计算A和B的相关系数,估计这两个属性的相关度rA,B

  

  该值处于-1到1之间,如果rA,B大于0,则正相关,意味着A值随着B值增大而增大。该值越大,相关性越强。因此一个较高的rA,B表明A或B可以作为冗余而被删除。

  如果该值为0,说明是独立的,没有相关性。

  如果该小于0,说明是负相关,一个值增加另一个减少。

  注意,相关性并不蕴涵因果关系,如果A和B是相关的,并不意味着A导致B或B导致A。

  3.数值数据的协方差

  协方差和方差是两个类似的度量,评估两个属性如何一起变化。A和B的均值又称为期望值。

  A和B的协方差定义为:

  

  

  对于两个趋向于一起改变的属性A和B,如果A大于E(A),B很可能大于E(B)。因此,A和B的协方差为正。另一方面,如果一个属性小于它的期望值,另一个属性趋势向于大于它的期望值,则A和B的协方差为负。

  如果A和B是独立 的,E(AB)=E(A)*E(B),则协方差为0。但是如果协方差为0,未必是独立的。、

  例:数值属性的协方差分析

时间点 AllElectronics HighTech
t1 6 20
t2 5 10
t3 4 14
t4 3 5
t5 2 5

  E(AllElectronics)=(6+5+4+3+2)/5=4

  E(HighTech)=(20+10+14+5+5)/5=10.8

  Cov=(6*20+5*10+4*14+3*5+2*5)/5-4*10.8=50.2-43.2=7

  协方差为正,说明两个公司股票同时上涨

3.3.3 元组重复

3.3.4 数据值冲突的检测与处理

时间: 2024-12-14 06:45:08

数据挖掘概念与技术读书笔记(三)数据预处理的相关文章

数据挖掘概念与技术读书笔记(二)认识数据

2.1 数据对象与属性类型 2.1.1 什么是属性 2.1.2 标称属性:其值是一些符号或事物的名称.每个值代表某种类别.编码或状态,因此标称属性又被看作是分类的. 标称属性不是定量的,找出它的均值或中位数没有意义,有意义的是找到众数,是一种中心趋势度量. 2.1.3 二元属性:是一种标称属性,只有两个类别或状态:0或1,也称布尔属性. 二元属性可以是对称的:关于哪个结果应该用0或1并无偏好. 二元属性可以是非对称的:其状态结果不是同样重要的,如阳性或阴性.为方便计,将用1对重要的结果编码,另一

《数据挖掘概念与技术》--第三章 数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

《大型网站技术架构》读书笔记三:大型网站核心架构要素

一.性能—响应时间决定用户 (1)浏览器端: ①浏览器缓存: ②使用页面压缩: PS:Gzip压缩效率非常高,通常可以达到70%的压缩率,也就是说,如果你的网页有30K,压缩之后就变成了9K左右.想要启用Gzip压缩,提高浏览速度,可以浏览这篇文章:http://www.chinaz.com/web/2012/1017/278682.shtml ③合理布局页面: CSS:把样式表置于顶部:避免使用CSS表达式(expression_r):使用外部JavaScript和CSS:削减JavaScri

《世界是数字的》读书笔记 三

<世界是数字的>读书笔记 三 第六章 软件系统 操作系统是软件中的基础层,他负责管理计算机硬件,并为其他被称作应用程序的程序运行提供支持. 6.1操作系统 操作系统控制和分配计算机资源.首先,他负责管理CPU,调度和协调当前运行的程序.操作系统通常都需要管理数十个同时运行的进程或任务. 其次,操作系统管理RAM.他把程序加载到内存中以便执行指令. 最后,操作系统管理和协调外接设备的活动. 6.2操作系统怎么工作 计算机启动时首先要加载代码,加载的过程中还要检查硬件,比如哪些设备已经接入电脑,,

《你必须知道的.NET》读书笔记三:体验OO之美

一.依赖也是哲学 (1)本质诠释:"不要调用我们,我们会调用你" (2)依赖和耦合: ①无依赖,无耦合: ②单向依赖,耦合度不高: ③双向依赖,耦合度较高: (3)设计的目标:高内聚,低耦合. ①低耦合:实现最简单的依赖关系,尽可能地减少类与类.模块与模块.层次与层次.系统与系统之间的联系: ②高内聚:一方面代表了职责的统一管理,一方面又代表了关系的有效隔离: (4)控制反转(IoC):代码的控制器交由系统控制而不是在代码内部,消除组件或模块间的直接依赖: (5)依赖注入(DI): ①

《R实战》读书笔记三

第二章  创建数据集 本章概要 1探索R数据结构 2使用数据编辑器 3数据导入 4数据集标注 本章所介绍内容概括如下. 两个方面的内容. 方面一:R数据结构 方面二:进入数据或者导入数据到数据结构 理解数据集 一个数据集通常由一个表格组合而成,行表示观测,列表示变量.病人的数据集如表1所示. 表1 病人数据集 数据集能够反映数据结构.数据类型和内容. 数据结构 R数据结构如图2所示. 图2:R数据结构 数据结构即数据的组织方式,R数据结构包括向量.矩阵.数组.数据框和列表等. R向量 R向量是一

悟道—位IT高管20年的职场心经(读书笔记三)

悟道--一位IT高管20年的职场心经 第三章 世事洞明皆学问 职场就是你的大半个世界 是你一辈子也读不完的一大本书 想明白一个道理, 看明白一件事儿, 你就向成功迈进了一步. 1.1  "四行"说 四行是指: 第一,  你自己得行.自己的基础的能力是必须的,得靠自己学习. 第二,  得有人说你行.需要有伯乐,实际上是你得有一个自己的圈子,并且这些人都人认同你. 第三,  说你行的人得行.自己周围的圈子,里面也必须有牛人,只有在牛人的范围内,才能突显你自己的才能. 第四,  你身子骨得行

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类的所有样本的属性均值或中位数 使用最可能的值(最流行) 噪声数据 分箱 回归 离群点分析 数据集成--合并来自多个数据存储的数据 实体识别问题 冗余和相关分析 元组重复 数据值冲突的监测与处理 数据规