数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE?

ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后者。

大数据的利器大家可能普遍说是hadoop,但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析,垃圾数据会导致我们的磁盘占用量会相当大,这样无形中提升了我们的硬件成本(硬盘大,内存小处理速度会很慢,内存大cpu性能低速度也会受影响),因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题,但是事实上如果我们有更好的节点速度必然是会普遍提升的,因此ETL在大数据环境下仍然是必不可少的数据交换工具。

市场上流行的ETL很多,比如informatica等,但是开源的比较完善的却不是很多,而其中比较有名的要说是pentaho开源的kettle了,该工具被广泛用,并且开源的产品我们从中不仅可以学到ETL的简单应用,并且可以学习到ETL的原理以及通过源码学到更多的东西。

亮点一:KETTLE应用广泛,仅仅学会使用就可以找到一份不错的工作。

亮点二:本课程不仅讲解简单实用,同时讲解二次开发并且配有开发模板,提升工作质量。

亮点三:渗透了大数据的一些处理方法,与目前流行的hadoop配合使用。

亮点四:分析KETTLE源码,即使对ETL兴趣不大,至少可以了解国外开源项目的一些源码,并且KETTLE本身也使用了很多开源项目,因此可以从该工具上学到更多东西。

通过课程可以学到什么:

1.ETL过程原理

2.数据流引擎的原理

3.元数据和数据进行动态数据交换的设计

4.并发运算的原理

课时安排:(15课时)

1.ETL简介—开源KETTLE(1课时)

>介绍KETTLE在大数据应用的位置和作用。

>主要讲解ETL是什么,KETTLE进行简单介绍,并且使用例子进行KETTLE的使用介绍。

>介绍KETTLE流程的部署。

2.KETTLE使用(1课时)

>详细介绍KETTLE的spoon使用

>KETTLE的trans和job入门

>KETTLE的日志和调试工具使用

3. KETTLE之Step流程设计(3课时)

>编写例子介绍KETTLE常用的转换、清洗组件

>主要完成以下插件:

输入插件:

文本文件输入、生成记录、表输入、Fixed file input、Get data from XML

输出插件:

XML输出、删除、插入/更新、文本文件输出、更新、表输出

转换插件:

Add a checksum、Replace in string、Set field value、Unique rows(HashSet)、增加常量、增加序列、字段选择、拆分字段

Flow插件:

Abort、Switch/case、空操作、过滤记录

脚本插件:

Modified Java Script Value、执行SQL脚本

查询插件:

File exists、Table exists、调用DB存储过程

4. KETTLE之Job流程设计(2课时)

>编写例子介绍KETTLE常用的作业组件

>主要完成以下插件:

通用插件:

START、DUMMY、Transformation、Success

文件管理插件:

Copy Files、Compare folders、Create a folder、Create file、Delete files、Delete folders、File Compare、Move Files、Wait for file、Zip file、Unzip file

条件插件:

Check Db connections、Check files locked、Check if a folder is empty、Check if files exist、File Exists、Table exists、Wait for

脚本插件:

Shell、SQL

Utility插件:

Ping a host、Truncate tables

文件传输插件:

Upload files to FTPS、Get a file with FTPS、FTP Delete

>Kettle与Hadoop的联合使用

5. KETTLE之流程性能调优与监控(1课时)

>介绍KETTLE的流程监控功能

>介绍KETTLE的性能优化方法

6. KETTLE之嵌入开发(1课时)

>编写程序介绍KETTLE的流程如何嵌入到我们的java应用中

主要包括java嵌入trans以及job流程

7. KETTLE之自定义Step、Job插件制作(3课时)

>编写Step和Job模板,并给大家作为二次开发的基础工程使用,提高大家的开发效率。

>编写程序说明Step和Job插件的开发方法。

8. KETTLE之数据同步方案(1课时)

>介绍5种数据同步方案,并且这5种方案都是支持异构数据同步的。

包括全量快速同步方案和增量同步方案

9. KETTLE之分区、集群以及原理(1课时)

>介绍KETTLE的分区原理,并且讲解配置使用。

>介绍KETTLE的集群原理,并且讲解配置使用,以及监控方法。

10. KETTLE之源码分析与二次开发(1课时)

>介绍KETTLE的SRC导入ECLIPSE方法,以及打包和运行方法。

>分析KETTLE的包结构以及运行流程,讲解KETTLE的运行原理。

时间: 2024-10-25 17:06:45

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )的相关文章

H2O是开源基于大数据的机器学习库包

H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的 统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估.数据收集是很容易,但是决 策是很难的. H2O使得能用更快更好的预测模型源实现快速和方便地数据的挖掘. H2O愿意将在线评分和建模融合在一个单一平台上. H2O提供了机器学习的培训手册供学习:H2O训练

大数据好学习吗?如何快速掌握大数据开发技能

大数据好学习吗?如何快速掌握大数据开发技能?经常被学员问到:大数据好学吗?想学大数据怕学不会等问题.我想说的是,大数据在当下是个非常热门的话题,大数据在深刻的影响着这个世界,在促进传统行业升级改造.引领新兴产业和新兴应用蓬勃发展.提升社会运行和管理效率等方面,大数据正引发新一轮革命.大数据是时代潮流,如果学一下就会了,那大数据行业现在恐怕已经被挤破门槛了吧,想学大数据还是得下苦功夫才行. 想学大数据,先把这几个技能学会再说: Apache Hive2.1 Hive是建立在Hadoop上的数据仓库

数据进入MaxCompute的N种方式,大数据实战Demo系统数据上云实践

摘要: 2018"MaxCompute开发者交流"钉钉群直播分享,由阿里云数据技术专家彬甫带来以"MaxCompute数据仓库数据转换实践"为题的演讲.本文首先介绍了MaxCompute的数据架构和流程,其次介绍了ETL算法中的三大算法,即更新插入算法.直接加载算法.全量历史表算法,再次介绍了在OLTP系统中怎样处理NULL值,最后对ETL相关知识进行了详细地介绍. 2018"MaxCompute开发者交流"钉钉群直播分享,由阿里云数据技术专家彬

中科院 | 大数据的力量来自“大成智慧”信息时代大数据的再认识

文章出处:http://www.thebigdata.cn/YeJieDongTai/29119.html 大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程.首先从"信息时代新阶段".数据文化和认识论的高度阐述了对大数据的理解;接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战;最后对发展大数据应避免的误区提出几点看法. 1 大数据兴起预示&

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据架构和模式(五)——对大数据问题应用解决方案模式并选择实现它的产品

摘要:本文使用了一个基于场景的方法,概述了可能有助于定义大数据解决方案的解决方案模式.每个场景都从一个业务问题开始,并说明为什么需要大数据解决方案.本文会将一个具体的解决方案模式(由原子模式和复合模式组成)应用到业务场景.这个逐步分析的方法有助于用户确定解决方案所需的组件.在文章的末尾,提供了一些建议使用的典型产品和工具. 简介 本系列的 第 3 部分 描述了针对最常见的.经常发生的大数据问题及其解决方案的原子模式和复合模式.本文将推荐可以用于架构大数据解决方案的三个解决方案模式.每个解决方案模

大数据架构和模式(五)对大数据问题应用解决方案模式并选择实现它的产品

作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:22  阅读: 1073 次  推荐: 2   原文链接   [收藏] 摘要:本文使用了一个基于场景的方法,概述了可能有助于定义大数据解决方案的解决方案模式.每个场景都从一个业务问题开始,并说明为什么需要大数据解决方案.本文会将一个具体的解决方案模式(由原子模式和复合模式组成)应用到业务场景.这个逐步分析的方法有助于用户确定解决方案所需的组件.在文章的末尾,提供了一些建议使用的典型产品和工

消费大数据公司“重分析-强应用”引领企业大数据营销

近日,消费大数据公司信柏科技树立"大数据-重分析-强应用"理念发布新一代大数据业务平台,以大数据为基础.软硬件结合的方案来辅助企业进行经营决策与精准营销.该大数据业务平台定位于"人群 ."内容"."行业 "与"地域"精准分析与挖掘,覆盖到企业营销中较为关注的用户特征画像.精准人群标定.定向数据采集内容监听 .采集内容的关联分析.行业报告与市场动态.竞品分析.新店开张选址报告.指定地区常驻人群特征分析等业务,致力于成为

大数据高冷?10个有趣的大数据经典案例

马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了.近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直 是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水.下面我们通过十个经典案例,让大家实打实触摸一把“大数据”.你会发现它其实就在身边 而且也是很有趣的. 啤酒与尿布 全 球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的 促销手段.没想到这个举措