Kettle通用数据贴源作业设计

本设计基于以下需求提出

1. 快速接入数据源表(贴源/落地)

2. 无须给单独表开发转换/作业

3. 动态生成数据源连接, 表字段等信息(预先保存在数据仓库中)

本设计所需条件

1. 数据源为关系型数据库

2. 不同数据源需要写一小段Java Scripts以保证数据源连接可用

总体作业结构

jb_STG_SetVariable: 设置及生成后续转换所需信息
tf_STG_LoadData : 实际贴源转换
jb_Update_Flag : 更新运行后状态

jb_STG_SetVariable:

tf_STG_Inc_SetVariable : 获取数据表运行增量时间
tf_STG_selectSource_SetVariable: 获取并设置数据表名,字段名,数据源连接,用户,密码

数据表的运行增量时间在数据仓库中进行管理, 每次运行该作业前将每天更新对应表的增量日期/时间.

数据表名,字段名,数据源连接,用户,密码 也是通过数据仓库中一系列的参数表设置完成, 此过程当需要接入一整个数据库(20张表以上)时可通过脚本自动完成, 不在本次Kettle作业设计讨论范围.

下面再来看看 tf_STG_Inc_SetVariable 和 tf_STG_selectSource_SetVariable 的内容:

tf_STG_Inc_SetVariable:

tf_STG_selectSource_SetVariable:

最后jb_Update_Flag作业所做动作为更新日志表记录, 此处与仓库设计关系较大, 不同仓库有各自具体情况, 故不作详细说明.

需要本设计的范例xml供学习, 可联系邮箱[email protected]

时间: 2024-10-12 13:45:16

Kettle通用数据贴源作业设计的相关文章

通用数据权限管理系统设计

一: 应用场景: 在实际应用中,数据权限的控制点一般相对固定,如针对公司.部门.个人.客户.供应商等,也就是说数据权限一般针对指定数据类型下的一些数据对象. 例如:某公司有北京生产部.上海生产部和保定生产部,现在需要定义几种角色: 总部总监         -- 能察看所有生产部的产品: 北京生产部经理 -- 只能察看北京生产部的所有产品: 上海生产部经理 -- 只能察看上海生产部的所有产品: 保定生产部经理 -- 只能察看保定生产部的所有产品: 二:角色定义: 上述角色的定义如下: -----

[转载] 使用Kettle进行数据迁移(ETL)

由于开发新的系统,需要将之前一个老的C/S应用的数据按照新的数据设计导入到新库中.此过程可能涉及到表结构不一致.大数据量(千万级,甚至上亿)等情况,包括异构数据的抽取.清洗等等工作.部分复杂的工作需要我们的DBA写代码用程序在JDBC或者Delphi中解决,而大部分稍简单的数据的迁移需要一个强大的ETL工具来解决.某日,技术经理让我找一个满足我们项目数据迁移需求的稳定.高效ETL工具.google了几把,网上大致有下列几款软件资料较多:Oracle的OWB(Oracle Warehouse Bu

EF通用数据层封装类(支持读写分离,一主多从)

浅谈orm 记得四年前在学校第一次接触到 Ling to Sql,那时候瞬间发现不用手写sql语句是多么的方便,后面慢慢的接触了许多orm框架,像 EF,Dapper,Hibernate,ServiceStack.OrmLite 等.当然每种orm都有各自的优势,也有不足的地方.园子里也有很多大神开源了他们写的orm,如SqlSugar,Chloe.ORM,CYQ.Data 等.先不说这些开源的orm使用度怎么样,我觉得起码从开源的精神上就很可嘉了,我也曾下载过这几位大神的源码进行学习. 所有o

Drillbench Cemcalc v3.9 1CD(动态固井设计分析软件)/Drillbench Suite v6.1 1CD(钻井作业设计及规划软件)

Drillbench Suite v6.1 1CD(钻井作业设计及规划软件) Drillbench Cemcalc v3.9 1CD(动态固井设计分析软件) MEPO v3.2.4 1CD(油藏数值模拟优化及辅助历史拟合工具) Olga Advance Blowout Control(ABC)  v2.20 1CD(井喷应急规划和分析井喷的情况下的唯一工具) OLGA.v7.3-ISO 1CD(多相流瞬态流动模拟软件) OLGA 2000 Exercises PVTsim v20.0-ISO 1

通用的业务编码规则设计实现

一.背景 每一个企业应用中不可避免的都会涉及到业务编码规则的问题,比如订单管理系统中的订单编号,比如商品管理系统中的商品编码,比如项目管理系统中的项目编码等等,这一系列的编码都需要管理起来,那么它们的应该如何编码的,具体的编码规则我们很多时候都是直接写在程序当中 常用的的编码有: 1.数据库自增长ID或最大值加1 2.GUID 3.时间戳 4.常量+自增长 5.常量+时间戳+自增长 6.根据单据属性编码 比如商品编码:第X是代码商品颜色,第Y位是代码商品产地 7.自定义函数处理返回 8.其它 添

关于项目中的DAL数据接入层架构设计

摘要:项目中对关系型数据库的接入再寻常不过,也有海量的ORM工具可供选择,一个一般性的DAL数据接入层的结构却大同小异,这里就分享一下使用Hibernate.Spring.Hessian这三大工具对DAL层的具体实现方法,也是对之前使用的一个总结. 关键词:Hibernate, Spring, Hessian, DAL, 数据接入层, 架构设计 注意:以下配置或代码运行在Hibernate4.2.5,Spring3.2.4,Hessian4.0.37,Tomcat7.0.47环境下 一.Mode

Spark Structured Streaming框架(3)之数据输出源详解

Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单.本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式. 1. File Structured Streaming支持将数据以File形式保存起来,其中支持的文件格式有四种:json.text.csv和parquet.其使用方式也非常简单只需设置checkpointLo

魅族大数据之流平台设计部署实践--转

原文地址:http://mp.weixin.qq.com/s/-RZB0gCj0gCRUq09EMx1fA 沈辉煌   魅族数据架构师  2010年加入魅族,负责大数据.云服务相关设计与研发: 专注于分布式服务.分布式存储.海量数据下rdb与nosql融合等技术. 主要技术点:推荐算法.文本处理.ranking算法 本篇文章内容来自第八期魅族开放日魅族数据架构师沈辉煌的现场分享,由IT大咖说提供现场速录,由msup整理编辑. 导读:魅族大数据的流平台系统拥有自设计的采集SDK,自设计支持多种数据

TableInputFormat分片及分片数据读取源码级分析

我们在MapReduce中TextInputFormat分片和读取分片数据源码级分析 这篇中以TextInputFormat为例讲解了InputFormat的分片过程以及RecordReader读取分片数据的过程.接下来咱们分析TableInputFormat的分片信息和数据读取过程. TableInputFormat这是专门处理基于HBase的MapReduce的输入数据的格式类.我们可以看看继承结构:(1)public class TableInputFormat extends Table