kettle组件-流程

1:空操作
   该操作什么都不做,主要作用是,想测试的时候充当一个占位符。
   例如:两个文本文件输入,同时连接到流查询步骤中,但是流查询仅仅能从一个流中查询信息,所以可以在同时连接流查询之前,
             将两个文本文件输入连接到空操作,然后再让空操作去连接流查询。
         空操作组件具有合并记录的作用。

2:过滤记录
   该步骤通过条件和比较符来过滤记录。
   发送ture数据给步骤:指定条件返回true的数据将发送到此步骤
   发送false数据给步骤:指定条件返回false的数据将发送到此步骤。
   true和false步骤必须指定。
 条件:
        条件中可以字段和字段间进行比较,也可以字段和某一固定的值进行比较。
        条件一开始的NOT选项是干什么?

3:追加流
   这个步骤将一个步骤中的数据流追加到另一个步骤中。
   前:待追加的数据流。
   后:追加到的数据流。

4:阻塞数据直到步骤都完成
   kettle中转换和作业的执行顺序----
   1:一个作业内的转换是顺序执行的。
   2:一个转换中的步骤是并行执行的。
   3:作业内不支持事务,转换内支持事务。
 根据业务需要,通常需要在转换内顺序执行,小技巧如下:
   1:执行sql是优先于所有步骤的。
   2:使用阻塞数据直到步骤都完成,确保其他数据步骤都完成再执行下一步。
 事务:
   1:设置转换只使用一个事务。转换设置---》杂项---》使用唯一连接
   2:设置转换内的表插入等数据库操作不进行批量提交。“提交记录数量”--》0
 阻塞数据直到步骤都完成:
   当抽取10个表数据的时候,我们希望先抽取小表,然后最后再执行大表。但是kettle转换的步骤是并行执行的,

  这样有可能会出现报错,比如经常报“数据连接异常关闭”等报错,并行执行会消耗大量资源,也会导致抽数的

  时候抽到一半未成功的情况。这时我们就可以使用kettle的阻塞数据直到步骤都完成 来设计数据表的抽取。

  当执行完ods_dept步骤的时候,才去执行ods_BONUS步骤,然后再ods_BONUS步骤完成后才去执行ODS_EMP步骤。
 组件介绍:
   监视下面的步骤----》步骤名称表示需要等待执行完成的步骤名称。
 

原文地址:https://www.cnblogs.com/zja001/p/10084451.html

时间: 2024-11-09 03:41:38

kettle组件-流程的相关文章

利用kettle组件导入excel文件到数据库

1.     实现目标 把excel文件内容导入到目标表中:然后用java调用kettle的转换.excel文件的内容仅仅有两列,示比例如以下: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbmV3ZWFzdHN1bg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > 数据库表的结构例如以下: watermark/2/text/aHR0

Ceph 知识摘录(内部组件流程)

RADOS可靠.自动.分布式对象存储系统 RADOS作用1.Rados是Ceph集群基础,Ceph存储系统核心,Ceph中一切都是以对象形式存储,Rados就是负责存储这些对象,无需考虑数据啥类型2.确保数据的一致性和可靠性3.负责数据的复制.故障检测和恢复4.负责数据在集群节点之间的迁移和再均衡5.Ceph所有优秀特性都是rados提供的,如:分布式对象存储.高可用性.高可靠性.没有单点故障.自我修复.自我管理6.Rados就是ceph集群中的大脑,负责决策.调度等工作 OSD对象存储设备 O

kettle组件-查询

1:数据库查询     数据库连接:所要连接的数据库  模式名称:一般选取用户模式  表名:所要查询的表名  是否使用缓存:指定是否使用数据库缓存查询结果.  缓存大小:指定缓存的大小.  从表中加载所有数据:选中该项,缓存将不被利用. 查询所需的关键字:   表字段:表示所选中的表中的字段.   比较操作符:对选中字段进行判断.   字段1/2:流中的其他(表字段中可选的字段在该选项中不能选择)字段. 查询表返回的值:   查询表返回的字段,类型,可以通过新名称对返回字段该名称.  排序:指定

kettle组件-转换

1:列转行2:列转行3:去除重复记录      步骤名称:保持唯一性      增加计数器到输出?:当勾选了此项,并在计数器字段后给予了名称,则将会在该字段下显示去掉的重复行数.      字段名称:用来去重的字段,可选多个字段,表示多个字段都相同时表示重复.      该功能类似与sql中的distinct关键字. 4:增加序列      一个序列是在某个起始值和增量的基础之上,经常改变的整数值.可以使用数据库定义好的序列,也可以使用kettle决定的序列.      kettle序列在同一个

kettle组件-输入

1:文本文件输入     包含六个页签:文件,内容,错误处理,过滤,字段,其他输出字段     文件:用于选中文件或目录,可以使用正则表达式     内容:文件类型---保持默认CSV即可    分隔符----指文本文件每个字段间的分区标志,不可见分隔符的输入方法:$[01]    文本限定符----指当文本字段中有分隔符作为字段内容一部分时就需要文本限定符    逃逸符-----针对文本限定符而言,当文本字段中出现文本限定符了,需要使用逃逸符    头部-------规定字段行    过滤:将

kettle组件-分组

分组:  步骤名称:在单一转换中名称唯一.  分组字段:指定分组的字段.  聚合:指定需要聚合的字段,方法以及新字段结果的名称.  包含所有的行:如果选择该项,输出中就包含所有的行,不仅仅是聚合.  临时文件目录:临时文件存储的目录.  临时文件前缀:指定命名临时文件时的文件前缀.  添加行号,每一个分组重启:如果想添加行号,就选择该项.  字段名行号:指定行号将插入的字段名称.  名称:做聚合之后结果数据所对应的字段.  Subject:做聚合操作的字段.  类型:选择聚合函数.  值:定义常

RDIFramework.NET ━ .NET快速信息化系统开发框架 ━ 工作流程组件介绍

RDIFramework.NET ━ .NET快速信息化系统开发框架 工作流程组件介绍 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,给用户和开发者最佳的.Net框架部署方案. 1.RDIFramework.NET框架介绍 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,为企业或个人在.NET环境下快速开发系统提供了强大的支持,开发人员不需要开发系统的基础功能和公共模块,框架自身提供了强大的函数库和开发包,开发人员只须集中精力专注于业

ETL工具kettle的几个小组件(剪切字符串,增加常量,计算器)

接下来几天给大家介绍下几个常用的kettle组件1.剪切字符串所谓的剪切字符串,就类似于Oracle的substr函数,具体位置在某个转换的核心对象-转换中,如图使用方法为--双击打开组件,选择你要裁剪的流字段(必须),输出字段(选填),输入初始和结束位置,这样就好了:2.增加常量所谓的增加常量就是增加x个字段,而这每个字段的值都是常量(这里的x是个大于等于0的自然数),具体位置在某个转换的核心对象-转换中,如图使用方法是双击组件,按自己的需要填写参数,如图我们经常需要填写的有名称,类型,格式,

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE? ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后者. 大数据的利器大家可能普遍说是hadoop,但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析,垃圾数据会导致我们的磁盘占用量