ETL工具kettle的csv输入和excel输入

实际工作中我们可能回经常将excel或者csv的数据导入到数据库中,这里讲下怎么通过kettle进行导入;
首先说下这两种格式的区别:CSV是文本文件,用记事本就能打开,XLS是二进制的文件只有用EXCEL才能打
同时CSV (*.csv) 文件格式只能保存活动工作表中的单元格所显示的文本和数值。工作表中所有的数据行和字符都将保存。数据列以逗号分隔,每一行数据都以回车符结束。如果单元格中包含逗号,则该单元格中的内容以双引号引起。
如果单元格显示的是公式而不是数值,该公式将转换为文本方式。所有格式、图形、对象和工作表的其他内容将全部丢失。
若只是保存一点文本信息用 .csv文件就可以了 但是若有设定公式,冻结列等其他东西则用xls;
接下来说下两者的具体用法:
csv输入
打开一个转换,点击程序左边的核心对象,在输入中就可以看到,当然你也可以在左上方的步骤搜索中进行搜索;如图:

将csv文件输入组件拖到转换中需要的位置;双击打开

点击浏览添加文件,其他选项用默认就好,接下来点击获取字段,那么就会获取到相应的字段,也可以删除自己不需要的字段,需要注意下类型,特别是涉及到number和date格式的时候注意下,还有右边的去除空格,有时候csv中会存在大量的空格,你根据实际情况自己选择;同时你也可以点击预览看下效果;最后点击确定就好;还有一点文件编码要选择正确的,不然会出现中文乱码;

excel输入
前面步骤和csv输入一样,双击打开,如图

首先选择合适的表格类型,然后点击浏览,选项文件,然后千万记得点击增加,记住;点击增加后会在下面的选中的文件中可以看到,如果选错了首先要在选中的文件中将它删除;接下来点击工作表,这是为了选中某一个sheet(一个表格可能会有多个sheet)

然后点击字段,接下来步骤和csv输入一样了

原文地址:http://blog.51cto.com/13602563/2162721

时间: 2024-11-11 00:03:45

ETL工具kettle的csv输入和excel输入的相关文章

ETL工具—Kettle数据的导入导出—Excel表到数据库

案例目的:当Excel中有几万条记录或者更多数据时,使用Kettle导入到数据库中.速度就能感到比复制粘贴快很多. 这里我会演示将"data.xlsx"表中数据有15万多条记录,使用Kettle导入到oracle数据库的testuser用户下. 准备工作:1.data.xlsx表: 2.testuser用户下要有一个与data.xlsx表结构(列数与字段类型)相同的表. 开始!!! 1.新建一个"转换",将"Excel输入"."表输出&

可用于Hadoop下的ETL工具——Kettle

看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle.    Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做数据整合中时数据的抽取(Extract).转换(Transformat).加载(Load)工作.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制.Transformation工作原理上采用并发流式处理

大数据之ETL工具Kettle的--1功能介绍

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用.我这里啊,先描述ETL工具的通用功能,再来描述作为ETL工具其中的一种(Kettle)是如何来提供这些功能的(图文详解) ETL工具的功能之一:连接 任何ETL工具都应该有能力连接到类型广泛的数据源和数据格式.对于最常用的关系型数据库系统,还要提供本地的连接方式(如对于Oracle的OCI),ETL

ETL工具—Kettle数据的导入导出—数据库到数据库

ETL简介: ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) 数据库到数据库 下面讲解:kettle工具实现方法 案例目的:从用户scott下将emp表导入到用户testuser下. 准备工作:首先在testuser账户下,新建一个与scott账户中emp表结构相同的表. 操作步骤: 1.检测一下testuser账户下是否已经建立了emp的空表. 图1:检测用户testuser中的emp表 2.新建一个"转换",拖入"表输入&quo

ETL工具kettle怎么做定时任务

kettle做定时任务平时任务中经常需要用两种方法:一.kettle自带的功能.具体操作如下:首先形成一个job,然后点击开始组件:结果如图:当需要定时时,那么就是需要重复:此时勾选重复选项,然后点击类型下拉选选择你需要定时的类型,如时间间隔,天,周,月:如果选择时间间隔,意味着你每隔多长时间执行一次,单位是分秒,自行选择.如图当选择了天,那么就是意味着在每天的几点执行,如图当选择了周,就意味这是在每周的几点执行当选择了月,意味着是在每月的多少号的几点执行当然这时一种单选,选择之后一定记得点击确

ETL工具kettle的几个小组件(剪切字符串,增加常量,计算器)

接下来几天给大家介绍下几个常用的kettle组件1.剪切字符串所谓的剪切字符串,就类似于Oracle的substr函数,具体位置在某个转换的核心对象-转换中,如图使用方法为--双击打开组件,选择你要裁剪的流字段(必须),输出字段(选填),输入初始和结束位置,这样就好了:2.增加常量所谓的增加常量就是增加x个字段,而这每个字段的值都是常量(这里的x是个大于等于0的自然数),具体位置在某个转换的核心对象-转换中,如图使用方法是双击组件,按自己的需要填写参数,如图我们经常需要填写的有名称,类型,格式,

ETL工具-KETTLE教程专栏1----术语和定义

1-资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中.        资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称.        资源库有两种形式:        一.Kettledatabase repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest.        二.Kettle fi

八步学会数据迁移:ETL工具kettle使用方法

一.目的 将不同服务器上的表合并到另外一个服务器上.例如:将服务器1上的表A和服务器2上的表B,合并到服务器3上的表C 要求:表A需要被裁剪(去掉不必要的字段).表B需要增加一些字段 二.使用方法 (1)在服务器3上的数据库中新建一张表C(符合实际系统设计的字段) (2)新建表输入,连接服务器1,通过获取SQL语句选择需要使用的表,也可以选择一些字段 (2)同理,新建表输入,连接服务器2,通过获取SQL语句选择需要使用的表,也可以选择一些字段 (3)新建两个排序记录 (4)选择要排序的字段 (5

ETL工具kettle怎么进行增量数据抽取:一、通过标志位

在平时的操作过程中可能大家需要经常进行增量的数据抽取,方法有很多种,接下来几天讲给大家介绍几种我本人经常使用的几种方式:首先给大家介绍我最喜欢的一种,就是通过标志位:操纵方法如下,在源表中增加一个标识字段,比如tongbu,当然可以为它设个默认值N,然后我们再增加一个索引nvl(tongbu,'N'),增加索引是为了提高查询的速度,接下来我们来写具体的流程:我写的这个流程非常简单,有的朋友们会非常疑惑为什么我会有更新组件,先卖个关子咱们继续:在写 表输入中的sql时,我们引入了一个伪列gx,并赋