【数据清洗】2012-数据清洗及其一般性系统框架

(1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档。
      (2)检测。包括检测必需的数据预处理,并进行相似重复记录、不完整记录、逻辑错误、异常数据等数据质量问题的检测,对检测结果进行统计,以获得全面的数据质量信息,并将相关信息整理归档。
      (3)定位。包括数据质量问题定位、数据追踪分析,并根据检测结果对数据质量进行评估,分析问题数据及修正的业务影响,分析产生数据质量问题的根本原因;进而确定数据质量问题性质及位置,给出数据修正方案,并将相关信息归档。根据定位分析情况,可能需要返回“检测”。
      (4)修正。在定位分析的基础上,对检测出的实例层数据质量问题进行修正,具体包括问题数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行数据世系管理。
      (5)验证。验证修正后的数据与任务定义的符合性(用到部分检测操作),如果结果与任务目标不符合,则做进一步定位分析与修正,甚至返回“准备”中调整相应准备工作。

图1中的一般性系统框架PDLMV根据用户要求,允许从不同的阶段开始,在不同的阶段停止,以完成不同的数据清洗任务,即PDLMV是可定制的,并且各功能可单独完成。因此,PDLMV是一个柔性的、可扩展的、交互性好的、松耦合的数据清洗框架。同时,由PDLMV完成的数据处理过程,均可视为完整数据清洗过程。

时间: 2024-10-08 21:55:55

【数据清洗】2012-数据清洗及其一般性系统框架的相关文章

java大数据 高并发 系统框架 springmvc mybatis Bootstrap html5 shiro maven SSM SSH

获取[下载地址]   QQ: 313596790   [免费支持更新]A 代码生成器(开发利器);全部是源码     增删改查的处理类,service层,mybatis的xml,SQL( mysql   和oracle)脚本,   jsp页面 都生成   就不用写搬砖的代码了,生成的放到项目里,可以直接运行B 阿里巴巴数据库连接池druid;  数据库连接池  阿里巴巴的 druid.Druid在监控.可扩展性.稳定性和性能方面都有明显的优势C 安全权限框架shiro ;  Shiro 是一个用

Java日志系统框架的设计与实现

推荐一篇好的文章介绍java日志系统框架的设计的文章:http://soft.chinabyte.com/database/438/11321938.shtml 文章内容总结: 日志系统对跟踪调试.程序状态记录.数据恢复等功能有重要作用 日志系统一般作为服务进程或者系统调用存在,我们一般程序中使用系统调用 常用日志系统包括log4j的简单介绍 日志系统的系统架构 日志系统的信息分级 日志输出的设计 下面是全文的引用: 在Java领域,存在大量的日志组件,open-open收录了21个日志组件.日

[编写高质量iOS代码的52个有效方法](十一)系统框架

[编写高质量iOS代码的52个有效方法](十一)系统框架 参考书籍:<Effective Objective-C 2.0> [英] Matt Galloway 先睹为快 47.熟悉系统框架 48.多用块枚举,少用for循环 49.对自定义其内存管理语义的容器使用无缝桥接 50.构建缓存时选用NSCache而非NSDictionary 51.精简initialize与load的实现代码 52.别忘了NSTimer会保留其目标对象 目录 编写高质量iOS代码的52个有效方法十一系统框架 先睹为快

系统框架 springmvc mybatis Bootstrap html5 shiro maven SS

获取[下载地址]   QQ: 313596790   [免费支持更新]支持三大数据库 mysql  oracle  sqlsever   更专业.更强悍.适合不同用户群体[新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统]A 代码生成器(开发利器);      增删改查的处理类,service层,mybatis的xml,SQL( mysql   和oracle)脚本,   jsp页面 都生成   就不用写搬砖的代码了,生成的放到项目里,可以直接运行B 阿里巴巴数据库连接池druid

java大数据 高并发 系统框架 springmvc mybatis Bootstrap html5 shiro maven SSM

获取[下载地址]   [免费支持更新]三大数据库 mysql  oracle  sqlsever   更专业.更强悍.适合不同用户群体[新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统] A集成代码生成器 [正反双向(单表.主表.明细表.树形表,开发利器)+快速构建表单;freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本,处理类,service等完整模块B 集成阿里巴巴数据库连接池druid;  数据库连接池  阿里巴巴的 druid.Drui

java大数据 高并发 系统框架 springmvc mybatis Bootstrap html5

获取[下载地址]   QQ: 313596790   [免费支持更新]三大数据库 mysql  oracle  sqlsever   更专业.更强悍.适合不同用户群体[新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统]A 集成代码生成器(开发利器);                                         技术:313596790   增删改查的处理类,service层,mybatis的xml,SQL( mysql   和oracle)脚本,   jsp页面

Android动画学习(一)——Android动画系统框架简介

这几天在找工作,面试的时候被问到了Android动画,之前完全没接触过这部分,直接给懵了,当然其它不会的还有很多.回来之后就开始查Android动画方面的资料,边查边学,把自己不会的东西全部记录下来,同时也把废弃了半年的博客重新维护起来.希望自己以后看问题能更深入一点,努力成为一个大牛! 尽量拒绝三手技术!尽量拒绝三手技术!尽量拒绝三手技术!重要的事情说三遍~所以我不百度了~ 在Android 3.0之前,Android提供了两类动画.一类是Tween Animation,即补间动画,它提供了淡

【译】什么是游戏开发实体系统框架(终)

今天朋友提醒我说,我要翻译的这篇文章已经被翻译了,我一看,还真是,翻译的还不错.本着不重复造轮子的原则,本系列就不再往下翻译了(虽然只翻译了一点点...),大家如有兴趣请参看下面的译文: http://blog.csdn.net/aisajiajiao/article/details/19011259 但是翻译工作还是要继续的,下篇将进行一个flappy bird的教程翻译,敬请期待... [译]什么是游戏开发实体系统框架(终)

Android 系统框架简介

从整体系统框架而言,Android系统分成内核层.硬件抽象层.系统运行层.应用程序框架层以及应用程序层. ·内核层 基于Linux操作系统,开发的系统驱动层. ·硬件抽象层 进一步降低Android系统与硬件的耦合度 ·系统运行库层 包含了支撑整个系统正常运行的基础库.多数是由C/C++实现. ·应用程序框架层 一方面为上层应用程序提供了API接口:另一方面也囊括了不少系统级服务进程的实现,是与Android应用开发者关系最直接的一层. 一般都是JAVA语言编写. ·应用程序层 ...