使用kettle把XML文档转换成数据表结构

在kettle中Get data from xml
步骤和 XML Input Stream (StAX)步骤读取并解析xml文件。Get data from xml
步骤使用dom方式解析，比较消耗内存，当文件很大时，就不可取。XML Input Stream (StAX)步骤使用完全不同的方式解析大而复杂的文件，且能快速载入数据，所以建议使用该步骤。

下面通过示例来展示如何使用该步骤，源xml文件内容如下：

<?xml version="1.0"?>

<timeseries>

<measurementyear="2000">

<itemname="A">8.5</item>

<itemname="B">9.8</item>

</measurement>

<measurementyear="2001">

<itemname="A">12.2</item>

<itemname="B">9.4</item>

</measurement>

<measurementyear="2002">

<itemname="A">11.1</item>

<itemname="B">7.2</item>

</measurement>

</timeseries>

解析成数据表的格式数据如下：

使用下面步骤去实现该功能

xmlinput stream（stax）：流方式载入xml文档
过滤行：去除掉不相关的文档元素
switch/case步骤：分离第一级（measurement）和第二级（item）
Rowdenormaliser：把第二级的多行转成一行（行专列）
MergeJoin：合并子元素到第一级行(增加列）

示例可以从这里下载

Rowdenormaliser步骤

最容易理解执行情况的方式，通过预览没步骤的执行结果（5.x版本可以直接查看数据流），下图显示该步骤的执行原理。

MergeJoin
步骤

把两个来自不同数据源的流进行合并，其实和SQL中join原理是一样的，只不过在kettle中是针对流数据，不是表数据。非常重要的是：流数据要根据键（join中使用的）排序，本列中第一步载入xml文件时，已经排序，所以不再选哟“sort
rows”步骤。

时间： 2024-09-27 14:54:11

使用kettle把XML文档转换成数据表结构的相关文章

java将XML文档转换成json格式数据

功能将xml文档转换成json格式数据说明依赖包: 1. jdom-2.0.2.jar : xml解析工具包; 2. fastjson-1.1.36.jar : 阿里巴巴研发的高性能json工具包程序源码 package com.xxx.open.pay.util; import com.alibaba.fastjson.JSONObject; import org.jdom2.Element; import org.jdom2.JDOMException; import org.jdo

java将office文档pdf文档转换成swf文件在线预览

java将office文档pdf文档转换成swf文件在线预览第一步,安装openoffice.org openoffice.org是一套sun的开源office办公套件,能在widows,linux,solaris等操作系统上执行. 主要模块有writer(文本文档),impress(演示文稿),Calc(电子表格),Draw(绘图),Math(公式),base(数据库) 笔者下载的是openoffice.org 3.3.0.下载完直接安装即可. 但是,我们还需要启动openof

将Latex tex文档转换成 word文档（上）

有时候逼不得已,必须得将自己精心排版好的latex 文档转换成word 给别人编辑以下提供一个方法下载 Tex2Word 工具,地址我的网盘安装解压后安装,使用默认安装路径安装过程中.点击使用安装破解软件.依照安装包里给出方法将 C:\Program Files\tex2word C:\Program Files\Microsoft Office\OFFICE11\STARTUP\ C:\Program Files\Common Files\Microsoft Shared\TEX

如何把ppt文档转换成pdf

如何把ppt文档转换成pdf 如何把ppt转换成pdf?你是否会在制作ppt的时候想将其转换成PDF格式而上传至网络上与网友共享?使用迅捷ppt转换成pdf转换器就可以很轻松的解决这一问题. 具体操作过程如下: 1 首先手头要有一份ppt演示稿(文稿可以是单个或是多个).在在电脑上桌面上新建2个文件夹,一个取名为“ppt”,另一个命名为“pdf”; 2.双击开打ppt转pdf转换软件(这里以ppt转pdf为例).在“菜单栏”中选择“Office转pdf”; 3.点击添加文件将此“ppt”格式文件

如何将ppt文档转换成pdf

如何将ppt文档转换成pdfpdf转换成ppt,也许你很容易解决,但是反之把ppt转换成pdf你是否知道方法呢?曾经我很笨拙地将ppt里面的文字一段段地粘贴出来,整个过程花费了很多时间,但最后在校对的时候发现还是出现了错误,那个工作量就可想而知了...... 经过后面的不断测试,还是被我幸运的找到了一款非常好用的ppt转换成pdf转换器,其不但方便,还可以起到保护源文件的作用.无需其他高级程序,只需要一个软件就能实现. (一)准备: 1.迅捷ppt转pdf转换器正式版; 2.500张

C#实现文档转换成PDF

网上有很多将doc.ppt.xls等类型的文档转换成pdf的方法,目前了解到的有两大类: 1.使用虚拟打印机将doc.ppt.xls等类型的文档 2.使用OFFICE COM组件我采用了第二种方法实现,初步测试通过,还没有放到服务器上进行批量实时转换的测试. 下面开始介绍详细步骤: 1.安装OFFICE 2007.我安装的是OFFICE 2007 Professional Plus版.安装后提示要激活,开始没有激活也能使用,只是每次一打开office软件就提示要激活,实在忍受不了,就下了一个激

将Latex tex文档转换成 word文档

有时候逼不得已,必须得将自己精心排版好的latex 文档转换成word 给别人编辑下面提供一个方法下载 Tex2Word 工具,地址我的网盘安装解压后安装,使用默认安装路径安装过程中,点击使用安装破解软件,按照安装包里给出方法将 C:\Program Files\tex2word C:\Program Files\Microsoft Office\OFFICE11\STARTUP\ C:\Program Files\Common Files\Microsoft Shared\TEX

浅析如何将XML文档解析成java对象（待梳理）

User类 public class User implements Serializable { private static final long serialVersionUID = 7506854293380407436L; private Integer id; private String loginName; private String password; private Date createDate; private String username; public User(

免费好用的图片识别小程序,纸质文档转换成电子档用微信这个免费功能只要3秒!

电脑日常工作中,经常需要把纸质文档整理成电子档,手动录入既耗时,效率还低,尤其纸质文档多的时候,靠手动录入根本不是办法,该怎么办呢?不要急,接下来小编教大家一招,3秒钟就能把纸质文档转换成电子档. 具体操作方法如下: 打开微信--小程序--搜索[迅捷文字识别],然后打开它. 可以看到它有2大功能,我们今天要用到第一个功能[照片.拍照],拍照识别,把纸质文档拍下来,然后点击[使用照片],只要3秒文字就识别出来啦. 文字识别好以后,点击最下方的[复制]功能,就可以把文字内容粘贴到备忘录或者Word文

猜你喜欢

【CSS】创建布局

随着对分离HTML元素的语义重要性与其表现的影响的不断强调,CSS在HTML5元素布局方面的作用越来越重要. 1. 定位内容控制内容最简单的方式就是通过定位,这允许你使用浏览器改变元素的布局方式. ...

Spring Security4.1.3实现拦截登录后向登录页面跳转方式（redirect或forward）返回被拦截界面

一.看下内部原理简化后的认证过程分为7步: 用户访问网站,打开了一个链接(origin url). 请求发送给服务器,服务器判断用户请求了受保护的资源. 由于用户没有登录,服务器重定向到登录页面填 ...

Html+CSS 学习第二天

趁着这两天,将html和CSS基本上学了一遍,大家如果想学习的话,可以百度w3cSchool,进行学习. 基础我就不说了,直接将我做的一个登陆页面放上去.刚学完CSS,写个漂亮的登录界面恶心死我了,感 ...

Leet Code OJ 107. Binary Tree Level Order Traversal II [Difficulty: Easy]

题目: Given a binary tree, return the bottom-up level order traversal of its nodes' values. (ie, from ...

打车软件继续补贴是沦为鸡肋的开始

passport.baidu.com/?business&un=%E8%B5%A3%E5%B7%9E%E5%AD%A6%E5%A6%B9%E6%89%BE%E4%B8%8A%E9%97%A8# ...

如何选择一家直播系统开发的公司？

如何选择一家直播系统开发的公司? 直播系统开发按照常理来说我们在选择物品或者用品时,我们首先想到的是牛逼的优秀的东西,那么在选择想直播系统开发一样的公司时,我们该如何选择呢?在这个什么都有什么都不缺 ...

重分布 lesson 1

769842cqmjtz赘桌诅纂桌祖

http://weheartit.com/songmuci/collections/68595934-2014-12-28 http://weheartit.com/hangcanmou/coll ...

cpu选购

cpu g4560cpu天梯图 http://www.mydrivers.com/zhuanti/tianti/cpu/高性价比cpu配置方案:http://www.365pcbuy.com/arti ...

Android Studio如何集成Genymotion

转自:http://blog.csdn.net/hyr83960944/article/details/37900383 Android Studio集成Genymotion比在Eclipse中集成简 ...

【BZOJ】1070: [SCOI2007]修车（费用流+特殊的技巧）

http://www.lydsy.com/JudgeOnline/problem.php?id=1070 好神的题!!!orz 首先我是sb不会拆点..... 首先,每一个技术人员维修车辆都有一个先后 ...

移动端动态font-size

/** * Created by shimin on 2017/8/18. *///计算dpr!function(win, lib) { var timer, doc = win.document, ...

算法与数据结构3

1.序列:一次排列的多个对象: 2.向量(数组列表):向量提供一些访问方法,使我们可以直接通过下标访问序列中的元素,也可以更新对应位置的元素,为与index区分,我们称这里的下标为秩 rank,基于 ...

我要转战wordpress啦

买了空间买了域名备了案,搭了wordpress注定要尝试着自己去搞了,so,转战wordpress了,这段时间十分感谢大家,感谢51cto感谢51cto博客,是该独立成家了,我的博客www.kysid ...

【前端学习笔记】2015-09-02 附~~~~~ajax简单请求和获得响应结果

首先得创建一个请求XMLHttpRequest对象,var xmlhttp=window.XMLHttpRequest?new XMLHttpRequest() : new ActiveXObjec ...

hdu 1716 排列2(stl next_permutation)

http://acm.hdu.edu.cn/showproblem.php?pid=1716 考到题目直接套 next_permutation 没有注意到0不能为首位结果wa了一整天输出结构也略有 ...

Mac 安装neovim

> 做为vim的未来版本,必须关注! ## brew 更新``` bashbrew update```## brew 安装neovim``` bashbrew install neovim/ne ...

杭恳兰稻子刑视每

http://www.tudou.com/programs/view/ITu8aZexDwk?sk66=8H6 http://www.tudou.com/programs/view/ITu8aZexD ...

java中几种获取项目路径方式

转自http://caodaoxi.iteye.com/blog/1234805 在jsp和class文件中调用的相对路径不同. 在jsp里,根目录是WebRoot 在class文件中,根目录 ...

CC2540蓝牙模块学习(1)

本篇随笔摘自于:http://www.cnblogs.com/yygsj/p/5135150.html#undefined 一.整体 1.TI的蓝牙平台支持2种协议栈/应用配置:单一设备配置.网络处理 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.