【数据挖掘导论】——数据质量

数据质量

数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。

测量和数据收集问题

完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声,伪像,偏倚,精度和准确度。接着讨论测量和数据收集的数据质量问题:离群点,遗漏和不一致的值,重复数据。

测量误差(measurements error)是指测量过程中导致的问题,如:记录的值与实际的值不相同。

数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误,如:特定的物种研究可能混入相似物种的数据。测量和数据收集错误可能是系统的也可能是随机的。

噪声是测量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,如果噪声非常的多,甚至会掩盖原有的数据。

图2-6显示的三组被添加噪声点前后的数据点集。

噪声通常用于包含时间或空间分量的数据,在这些情况下,可以使用图形或信号处理技术来降噪,但完全的消除是非常困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现相同的错误。这种确定性失真称作伪像(artifact)

精度(precision):重复测量值之间的接近程度

偏倚(bias):测量值与被测量值之间的系统的变差

假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量,精度是0.013.

准确率:被测量的测量值与实际值之间的接近度。

准确度依赖于精度和偏倚,另一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据精确度所能确定的数字位数表示测量或计算结果。

离群点(outlier)是在某种意义上具有不同与数据集 中其他 大部分 数据对象的特征 的数据对象,或是相对于该属性的典型值来说不寻常的属性值。称为异常(anomalous)对象或异常值。需要注意的是区别噪声和离群点:离群点可以是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。

遗漏值

一个对象遗漏一个或多个属性值的情况还是很平常的,有时甚至还会出现信息收集不全的情况。但无论何种情况,在数据分析时都应当考虑遗漏值。那怎么应对遗漏值:

  • 删除数据对象或属性
  • 估计遗漏值
  • 分析时忽略遗漏值

不一致的值

数据可能包含不一致的值,如:帐号和密码因为手误填写错误等;无论是什么原因导致不一致的值,重要是能检测出来,并且纠正。

重复数据

数据集可能包含重复的数据对象,对于重复的数据一般都进行检测和删除。但做这些步骤之前,得处理两个问题:如果两个对象实际代表同一个对象,则对应的属性值必然不同,必须解决这些不一致的值。需要避免意外将两个相似但不重复的数据对象合并在一起;去重复(deduplication)通常表示这一过程。

【数据挖掘导论】——数据质量,布布扣,bubuko.com

时间: 2024-10-16 12:20:23

【数据挖掘导论】——数据质量的相关文章

【数据挖掘导论】——绪论

数据挖掘导论读书笔记之绪论 数据挖掘的前提:数据收集和数据存储技术的快速进步. 数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合.为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会. 数据挖掘是在大型数据存储库中,自动的发现有用信息的过程. 数据挖掘与知识发现 数据挖掘是数据库中知识发现不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是将未加工的数据转换为有用信息的整个过程. 输入数据:输入各种形式存

《数据挖掘导论》 - 读书笔记(1) - 概况 | 目录 [2016-8-8]

本书全面介绍了数据挖掘,涵盖了五个主题:数据.分类.关联分析.聚类和异常检测.除异常检测外,每个主题都有两章.前一章涵盖基本概念.代表性算法和评估技术,而后一章讨论高级概念和算法.这样能够在透彻地理解数据挖据的基础的同时,还能够了解更多重要的高级主题. 目录 第1章 绪论 1.1 什么是数据挖掘 1.2 数据挖掘要解决的问题 1.3 数据挖掘的起源 1.4 数据挖掘任务 1.5 本书内容与组织 第2章 数据 2.1 数据类型 2.2 数据质量 2.3 数据预处理 2.4 相似性和相异性的度量 第

【数据挖掘导论】——数据类型

数据类型 数据集的不同表现在很多方面.例如:描述数据对象的属性可有具有不同的类型--定量的或者定性的.并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联.这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据.此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型. 数据的质量 数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高数据质量将是改进精确分析结果的重要途径之一. 使数据适合挖掘的预处理步骤 通常,原始数据必须经过加工才能适合分析.而加工处

数据质量分析

转自:http://www.tipdm.org/ganhuofenxiang/1026.jhtml 数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因.数据挖掘从业者常常会说"Garbage In ,Garbage Out"即"垃圾进,垃圾出",装入的数据是垃圾,计算出来的结果也是垃圾.很多的时候我们过度重视重视算法,而忽略数据本身,算法固然重要,但是优质完整的数据却是要优于好的算法,假设如数据质量一样,数据特征选择

《数据挖掘导论》 - 读书笔记(2) - 绪论 [2016-8-8]

第1章 绪论 数据挖掘是一种技术,将传统的数据分析方法和处理大量数据的复杂算法相结合.数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会.我们概述数据挖掘,并列举所涵盖的关键主题. 介绍数据挖掘分析技术的一些应用: 商务:借助POS数据收集技术[条码扫描器.射频识别和智能卡技术],零售商可以在其商店的首映太收集顾客购物的最新数据.零售商可以利用这些信息,加上电子商务网站的日志.电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策. 数

数据中台专栏(三):数据质量分析及提升

本文作者:笑天 袋鼠云数据解决方案专家.拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔.索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作.近几年主攻大数据方向,包括数据中台建设.大数据治理.工业领域的数据应用等项目开发和实施. 正文:正文 大量的信息成倍增加,但有用的信息却非常有限. 信号是真相,噪声却使我们离真相越来越远. --<信号与噪声:大数据时代预测的科学与艺术> [美]纳特·西尔弗 一般情况下,企业都有多套

数据分析之数据质量分析和数据特征分析

1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.在常见的数据挖掘工作中,脏数据包括: (1)缺失值:     (2)异常值:     (3)不一致的值:     (4)重复数据及含有特殊符号(如#.¥.*)的数据. 1.1缺失值分析        数据的缺失

数据挖掘导论学习---1

最近在看清华大学数据挖掘导论,图个自己复习省事,把学的东西整理在这里,也希望本菜鸡的整理对一些童鞋有帮助吧. 分类问题: 定义:给定训练集:{(x1,y1),...,(xn,yn)},生成将任何未知对象xi映射到其类标签yi的分类器(函数). 图示: 其经典算法: 决策树 KNN 神经网络 支持向量机 注意:我们要的理想分类器是可以得到大部分正确的结果,并不是要达到100%,结果要求平滑. 分类问题算法中的交叉验证: 过程: 利用数据中的训练集进行模型的生成. 利用测试集进行模型的评测(eval

机器学习之数据探索——数据质量分析

数据探索是对样本数据进行解释性的分析工作,它是数据挖掘和机器学习较为前期的部分,更偏重于研究数据的本质.描述数据的形态特征并解释数据的相关性. 换句话说,透过数据探索,我们应该可以回答如下问题: 样本数据的分布怎样?有什么特点?数据之间有何种关系?数据是否满足建模要求? 问题驱动发展,对以上问题进行解答,涉及到数据探索的两个方面工作: 数据质量分析 数据特征分析 需要提及的是,数据探索与数据预处理紧密相连的,二者在数据挖掘的中没有绝对的先后次序.比如,在数据质量分析中,就牵涉到数据预处理中的数据