ETL工具kettle的几个小组件(剪切字符串,增加常量,计算器)

接下来几天给大家介绍下几个常用的kettle组件
1.剪切字符串
所谓的剪切字符串,就类似于Oracle的substr函数,具体位置在某个转换的核心对象-转换中,如图
使用方法为--双击打开组件,选择你要裁剪的流字段(必须),输出字段(选填),输入初始和结束位置,这样就好了;

2.增加常量
所谓的增加常量就是增加x个字段,而这每个字段的值都是常量(这里的x是个大于等于0的自然数),具体位置在某个转换的核心对象-转换中,如图
使用方法是双击组件,按自己的需要填写参数,如图
我们经常需要填写的有名称,类型,格式,长度,值这几项,类型就是字段的类型,比如字符串,时间,数字这些,值就是具体的值,每个字段对应一行,可以写多个;
3.计算器,计算器就是对一个或多个字段进行计算的组件;具体位置在某个转换的核心对象-转换中,如图
使用方法是双击打开组件
填写相应的参数,首先先要填写保存结果的字段,也就是新字段,计算-选择计算方法,比如加,减等这些,字段a,b,c这些是计算需要的字段,根据计算的参数选择,另外一些可写可不写,根据实际情况自己决定

原文地址:http://blog.51cto.com/13602563/2169353

时间: 2024-10-09 05:29:09

ETL工具kettle的几个小组件(剪切字符串,增加常量,计算器)的相关文章

ETL工具kettle的几个小插件(字符串替换,字段选择,将字段值设置为常量)

继续给大家介绍几个小组件:一.字符串替换这个功能类似于oracle的replace函数,就是将某个字段的某些字符替换成我们给定的字符首先,选择[输入流字段],[输出流字段]自己命名(就是用来保存处理后的结果的字段,可以和输入流字段保持一致),可以选择[使用正则表达式],[搜索]就是你希望被替换的字符.字符串,可以是一个正则表达式,[使用,,,替换]就是你期望用什么值替换被替换的部分,[设置为空串]就是将被选择的部分用空替换,[使用字段值替换]你可以使用现有的某个字段的值替换你期望被替换的部分,后

可用于Hadoop下的ETL工具——Kettle

看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle.    Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做数据整合中时数据的抽取(Extract).转换(Transformat).加载(Load)工作.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制.Transformation工作原理上采用并发流式处理

大数据之ETL工具Kettle的--1功能介绍

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用.我这里啊,先描述ETL工具的通用功能,再来描述作为ETL工具其中的一种(Kettle)是如何来提供这些功能的(图文详解) ETL工具的功能之一:连接 任何ETL工具都应该有能力连接到类型广泛的数据源和数据格式.对于最常用的关系型数据库系统,还要提供本地的连接方式(如对于Oracle的OCI),ETL

ETL工具kettle的组件--生成记录

今天介绍下kettle的一个比较实用的组件--生成记录:当我们想将一部分文本数据变成数据行,每个字段作为一个数据行的一个列,那么我们可以利用这个组件:它的位置在双击点开根据自己的实际需要进行设置当设置后,可以点击预览,上面的[限制]选项就是行的数量:其中 有三个选项是必填项--名称,类型,值 原文地址:http://blog.51cto.com/13602563/2170365

ETL工具kettle基础--插入更新组件

插入更新组件主要是对表进行插入或者更新操作这个组件的逻辑是,根据选定的字段判断目标表中是否存在现有数据,如果存在则执行更新操作,否则执行插入操作:首先选择或添加一个数据库连接,目标模式指的是用户,用户同实例跨用户访问,提交记录数量理论上比较大的值有助于提高速度,但有可能引起锁表,所以一般不要设置太大,100-10000之间就好,如果出现频繁锁表的情况下也可以将值设置为1:'不执行任何更新':这个选项实际应用中我不一般不选择,如果勾选了,那么就不会对表执行任何的更新操作,这个我们一般是在目标表不存

ETL工具—Kettle数据的导入导出—数据库到数据库

ETL简介: ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) 数据库到数据库 下面讲解:kettle工具实现方法 案例目的:从用户scott下将emp表导入到用户testuser下. 准备工作:首先在testuser账户下,新建一个与scott账户中emp表结构相同的表. 操作步骤: 1.检测一下testuser账户下是否已经建立了emp的空表. 图1:检测用户testuser中的emp表 2.新建一个"转换",拖入"表输入&quo

ETL工具kettle怎么做定时任务

kettle做定时任务平时任务中经常需要用两种方法:一.kettle自带的功能.具体操作如下:首先形成一个job,然后点击开始组件:结果如图:当需要定时时,那么就是需要重复:此时勾选重复选项,然后点击类型下拉选选择你需要定时的类型,如时间间隔,天,周,月:如果选择时间间隔,意味着你每隔多长时间执行一次,单位是分秒,自行选择.如图当选择了天,那么就是意味着在每天的几点执行,如图当选择了周,就意味这是在每周的几点执行当选择了月,意味着是在每月的多少号的几点执行当然这时一种单选,选择之后一定记得点击确

ETL工具kettle的csv输入和excel输入

实际工作中我们可能回经常将excel或者csv的数据导入到数据库中,这里讲下怎么通过kettle进行导入;首先说下这两种格式的区别:CSV是文本文件,用记事本就能打开,XLS是二进制的文件只有用EXCEL才能打同时CSV (*.csv) 文件格式只能保存活动工作表中的单元格所显示的文本和数值.工作表中所有的数据行和字符都将保存.数据列以逗号分隔,每一行数据都以回车符结束.如果单元格中包含逗号,则该单元格中的内容以双引号引起.如果单元格显示的是公式而不是数值,该公式将转换为文本方式.所有格式.图形

利用SPM工具运行自己创建的小组件(使用common-model向后台接口请求数据)

步骤如下: 1.安装依赖:spm install -e 2.编译:spm build (编译好的东西会放在trunk-dist里面) 3.发布:spm app -d (会出来一个export端口,一般是:4745) 4.在浏览器中输入:http://localhost:4745/examples/index.html  即可运行 如果出错了,出bug了,修改完,重新操作2.3.4.三个步骤. for example: 1.组件架构如下: 2.代码:package.jon 配置信息(一些依赖):