kettle菜鸟学习笔记1----相关准备知识

最近导师让给师弟师妹做个关于kettle的培训,瞬间囧了,kettle我也只是简单学过,连皮毛都算不上,而且,上次使用kettle已然是去年的事了……

没办法,只好重新学习下,好在之前写了几个文档,也留下了几行代码,想想还是放到博客上,以后自己查看也比较方便。

数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。

从这个技术的名称简单理解,就是把脏的数据洗掉(丢弃),或者洗干净(修正)。

如同大象放进冰箱,一般来说数据清洗也可以分为三步:

ETL:Extract-Transform-Load这其实描述了构建数据仓库的三个环节:数据抽取、数据转换、数据装载。

但是通常认为,数据清洗指的仅仅是数据转换这一环节。

Kettle

开源的ETL工具,纯java编写。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

下载及相关使用帮助,可访问:http://community.pentaho.com/projects/data-integration/

有兴趣研究kettle源码的,可以下载kettle源码:

SVN地址:svn://source.pentaho.org/svnkettleroot

注:SVN上只有5.0及之前的版本,之后迁移到github

GIT地址:https://github.com/pentaho/pentaho-kettle/

有兴趣进行kettle二次开发的,可能会用到

在线帮助手册:http://javadoc.pentaho.com/kettle/

时间: 2024-11-07 07:51:54

kettle菜鸟学习笔记1----相关准备知识的相关文章

APUE 学习笔记(一) Unix基础知识

1. Unix 体系结构 内核的接口被称为系统调用 公用函数库构建在系统调用接口之上 应用软件既可以调用公用函数库,也可以直接进行系统调用 2. 文件和目录 目录操作函数:opendir---> readdir---> closedir struct dirent 结构体 stat 系统调用 3.程序.进程.线程 程序:存放在磁盘上.并处于某个目录中的一个可执行文件.使用exec系列函数将程序从磁盘读入存储器,并使其执行 进程:程序的执行实体.进程控制的3个函数:fork.exec.waitp

MySQL学习笔记-事务相关话题

事务机制 事务(Transaction)是数据库区别于文件系统的重要特性之一.事务会把数据库从一种一致状态转换为另一个种一致状态.在数据库提交工作时,可以确保其要么所有修改都已经保存了,要么所有修改都不保存. InnoDB存储引擎中的事务完全符合ACID的特性. 原子性(atomicity) 原子性是指整个数据库事务是不可分割的工作单位.只有使事务中所有的数据库操作执行都成功,才算整个事务成功.如果事务中任何一个SQL语句执行失败,那么已经执行成功的SQL语句也必须撤销,数据库状态应该退回到执行

jQuery学习笔记--JqGrid相关操作 方法列表(上)

1.获得当前列表行数:$("#gridid").getGridParam("reccount"); 2.获取选中行数据(json):$("#gridid").jqGrid('getRowData', id); 3.刷新列表:$(refreshSelector).jqGrid('setGridParam', { url: ''), postData: ''}).trigger('reloadGrid'); 4.选中行:$("#jqGrid

STM32学习笔记2-系统时钟知识及程序配置

一:基本知识 1.  STM32F103ZE有5个时钟源:HSI.HSE.LSI.LSE.PLL. ①.HSI是快速内部时钟,RC振荡器,频率为8MHz,精度不高.   ②.HSE是快速外部时钟,可接石英/陶瓷谐振器,或者接外部时 钟源,频率范围为4MHz~16MHz. ③.LSI是低速内部时钟,RC振荡器,频率为40kHz,提供低功耗时钟. ④.LSE是低速外部时钟,接频率为32.768kHz的石英晶体. ⑤.PLL为锁相环倍频输出,其时钟输入源可选择为HSI/2.HSE或者HSE/2. 倍频

【Java菜鸟学习总结】Java基础知识(类)

目录 [Java菜鸟学习总结]Java基础知识(类) 1.面向对象编程 2.类 3.static关键字 4.final关键字 [Java菜鸟学习总结]Java基础知识(类) 1.面向对象编程 1.1.面向对象编程的特征 面向对象编程(OOP)的三大特征 { 封装; 继承; 多态; } 1.2.类与对象概述 类与对象是面向对象的核心概念. 类与对象 { 类; // 类是对于一类事物的描述,是抽象的.概念的定义. 对象; // 对象是实际存在的该类事物的每个个体,因而也别称为实例. } 2.类 2.

【菜鸟学习笔记】bootstrap_下拉菜单

<body> <div class="dropdown"> <button class="btn btn-success dropdown-toggle" type="button" id="dropdownMenu1" data-toggle="dropdown"> Dropdown <span class="caret"></sp

《机器学习实战》菜鸟学习笔记(一)

<机器学习实战>终于到手了,开始学习了.由于本人python学的比较挫,所以学习笔记里会有许多python的内容. 1. python及其各种插件的安装 由于我使用了win8.1 64位系统(正版的哦),所以像numpy 和 matploblib这种常用的插件不太好装,解决方案就是Anaconda-2.0.1-Windows-x86_64.exe 一次性搞定. 2.kNN代码 1 #-*-coding:utf-8-*- 2 from numpy import * 3 import operat

Linux shell 菜鸟学习笔记....

20171123 Linux shell 基础学习笔记1. shell 的开始 一般是 #!/bin/bash 通过 #! 来唯一指定使用的shell路径 其他的 # 都表示注释.2. shell 的变量 定义变量直接用 variablename= value 就可以 其中变量名与等号之间没有空格. 使用变量的时候 是 ${vairablename} 的方式进行使用 大括号可以有可以没有,但是建议有. 可以使用 for file in `ls /etc/` 的方式来循环取得文件名. 使用do d

DL学习笔记-CNN 相关知识

1968年,hubel对猫的视觉皮层细胞研究, 提出receptive filed概念,视觉细胞可以分为简单细胞和复杂细胞,分别对感受野的范围不同,在生物学基础上,研究出针对二维图像的卷积神经网络. 传统图像分类:特征提取+特征表达+分类CNN将这些方法集合在一起. 一.卷积神经网络特征 1.局部接受域 感受野宽度,视网膜,m层.m+1层,感受野范围外是没有响应的, 2.权值共享 权值相同的进行共享,进行平移. 二.卷积神经网络结构 典型结构 1.卷积层(Convolution) 图像是一个二维