DataStage系列教程 (Change Capture)

Change Capture可以比较具有相同列的数据集的差异,得出一个数据集(After)在另一个数据库(Before)的基础上产生的哪些变化。变化类型如表1:

变化代码 变化 中文说明
0 no change 无变化
1 insert 新增
2 delete 删除
3 edit 有变化

表1 变化种类

1 JOB示例

如图1,我们最终做出的JOB会是这个样子。它包含3个序列文件组件data_before、data_after、cmp_result;2个排序组件sort_before、sort_after;一个change capture组件cc。

JOB从2个结构相同的源文件抽取数据,最终比较出data_after在data_before上产生了哪些改变,然后将改变存入cmp_result。

图1 JOB示例

2 组件简介

2.1 阶段

阶段选项卡如图2。

图2 阶段选项卡

2.1.1 Change Mode

先介绍一下选项里的Change Mode,它有3种模式,官方解释如下:

All Keys, Explicit Values means that value columns must be defined, but all other columns are key columns unless they are excluded.
Explicit Keys & Values means that key & value columns must be explicitly defined.
Explicit Keys, All Values means that key columns must be defined, but all other columns are value columns unless they are excluded.

我的理解如表2:

模式名称 说明
All Keys, Explicit Values 明确指定值。
这时属性中会出现Excluded Keys和Change Values这2个文件夹,我们需要在这2个文件夹添加属性,或者只指定Change Values。
除了Excluded Keys、Change Values,其他的都是key,用来确定一条记录。
Explicit Keys & Values 明确指定键和值。
我们需要在Change Keys和Change Values文件夹中添加属性。
Explicit Keys, All Values 明确指定键。
需要在Excluded Values和Change Keys填写属性,或者只指定Change Keys。

表2 Change Mode说明

说明:我一般都是采用Explicit Keys, All Values,然后指定数据集的主键,如图2。其他模式您可以自己尝试。

2.2 其他选项

接下来介绍选项。用来确定比对结果输出和是否需要在日志中记录统计信息。

属性 说明
drop output for copy 没有发生变化的记录是否要从输出中删除。
True:删除,即不输出;False:输出。
drop output for delete 在data_after中删除的记录是否要从输出中删除。
即data_after中没有,data_before中有的记录。
drop output for edit data_after和data_before不一致的记录是否要从输出中删除。
drop output for insert data_after中有而data_before中没有的记录。
log statistics 是否在日志中输出统计信息。日志会记录数据集的记录数,新增、删除的记录数等。

3 结果展示

3.1 data_before

code    name    salary  entryDate
001     hong    100     2014-01-12
002     bai     105     2014-01-22
003     wang    110     2014-02-01
004     lan     102     2014-02-02

3.2 data_after

code    name    salary  entryDate
001     hong    120     2014-01-12
002     bai     105     2014-01-22
004     lan     102     2014-02-02
005     hei     103     2014-03-02

3.3 cmp_result

001     hong    120     2014-01-12      3
003     wang    110     2014-02-01      2
005     hei     103     2014-03-02      1

4 附JOB导出文件

点击下载

时间: 2024-10-01 08:37:11

DataStage系列教程 (Change Capture)的相关文章

DataStage系列教程 by Bluebreeze

突发奇想,用了这么久的DataStage,想要写点东西祭奠那逝去的岁月.希望可以坚持一直写完. DataStage系列教程 (Change Capture) DataStage系列教程 (Pivot_Enterprise 行列转换)

DataStage系列教程 (Slowly Changing Dimension)缓慢变化维

BI中维表的增量更新一般有2种: Type 1:覆盖更改.记录的列值发生变化,直接update成最新记录. Type 2:历史跟踪更改.记录值发生变化,将该记录置为失效,再insert一条新的记录. 这两种其实都可以通过sql的left join来实现,不过DataStage给我们提供一个组件,可以很好的实现这个功能,这就是slowly changing dimension. 1 缓慢变化维表示例 如图1所示,是一个常用的缓慢变化维,该表的进数逻辑为: 当记录新插入到改表时,STARTDATE是

屌炸天实战 MySQL 系列教程(二) 史上最屌、你不知道的数据库操作

此篇写MySQL中最基础,也是最重要的操作! 第一篇:屌炸天实战 MySQL 系列教程(一) 生产标准线上环境安装配置案例及棘手问题解决 第二篇:屌炸天实战 MySQL 系列教程(二) 史上最屌.你不知道的数据库操作 本章内容: 查看\创建\使用\删除 数据库 用户管理及授权实战 局域网远程连接法 查看\创建\使用\删除\清空\修改 数据库表(是否可空,默认值,主键,自增,外键) 表内容的增删改查 where条件.通配符_%.限制limit.排序desc\asc.连表join.组合union 查

【ASP.NET Identity系列教程(二)】运用ASP.NET Identity

注:本文是[ASP.NET Identity系列教程]的第二篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序的用户管理,以及实现应用程序的认证与授权等相关技术,译者希望本系列教程能成为掌握ASP.NET Identity技术的一份完整而有价值的资料.读者若是能够按照文章的描述,一边阅读.一边实践.一边理解,定能有意想不到的巨大收获!希望本系列博文能够得到广大园友的高度推荐. 14 Applying ASP

【ASP.NET Identity系列教程(三)】Identity高级技术

注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序的用户管理,以及实现应用程序的认证与授权等相关技术,译者希望本系列教程能成为掌握ASP.NET Identity技术的一份完整而有价值的资料.读者若是能够按照文章的描述,一边阅读.一边实践.一边理解,定能有意想不到的巨大收获!希望本系列博文能够得到广大园友的高度推荐. 15 Advanced ASP

CRL快速开发框架系列教程三(更新数据)

本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框架系列教程四(删除数据) CRL快速开发框架系列教程五(使用缓存) CRL快速开发框架系列教程六(分布式缓存解决方案) CRL快速开发框架系列教程七(使用事务) CRL快速开发框架系列教程八(使用CRL.Package) CRL快速开发框架系列教程九(导入/导出数据) CRL快速开发框架系列教程十(

屌炸天实战 MySQL 系列教程(四)【秒杀七年经验 LowB工程师】 主从复制、读写分离、模拟宕机、备份恢复方案生产环境实战

第一篇:屌炸天实战 MySQL 系列教程(一) 生产标准线上环境安装配置案例及棘手问题解决 第二篇:屌炸天实战 MySQL 系列教程(二) 史上最屌.你不知道的数据库操作 第三篇:屌炸天实战 MySQL 系列教程(三)你不知道的 视图.触发器.存储过程.函数.事物.索引.语句 第四篇:屌炸天实战 MySQL 系列教程(四) 主从复制.读写分离.模拟宕机.备份恢复方案生产环境实战 去年公司有一个七年PHP开发经验的工程师,想要跳槽. 去国内某知名互联网公司面试后,被虐惨了,非要我给他讲讲什么是主从

iOS9--适配系列教程(原文/译文)

摘自:https://github.com/ChenYilong/iOS9AdaptationTips iOS9适配系列教程[中文在页面下方] (截至2015年9月3日共有6篇,后续还将持续更新.更多iOS开发干货,欢迎关注  微博@iOS程序犭袁) For more infomation ,welcome to follow my twitter English 1. Demo1_You'd better Convert HTTP to HTTPS How to deal with the S

Part 7:自定义admin站点--Django从入门到精通系列教程

该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程 所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. Python及Django学习QQ群:453131687 本节我们主要介绍在第二部分提到过的admin后台管理站点. Django的admin站点是自动生成的.高度可定制的,它是Django相较其它Web框架独有的内容,广受欢迎.如果你觉得它不够美观,还有第三方美化版xadmin.请一定不要忽略它,相信我,它值得拥有! 一.定制模型表单 在前