kettle 合并记录步骤中的 关键字段和 比较字段的说明

该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。

需要设置的参数:

旧数据来源:旧数据来源的步骤

新数据来源。新数据来源的步骤

标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。

1. “identical” – 旧数据和新数据一样

2. “changed” – 数据发生了变化;

3. “new” – 新数据中有而旧数据中没有的记录

4. “deleted” –旧数据中有而新数据中没有的记录

关键字段:用于定位两个数据源中的同一条记录。

比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。

合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。

注意:

旧数据和新数据需要事先按照关键字段排序。

旧数据和新数据要有相同的字段名称。

例子:

旧数据:

field1, field2

1, 1

2, 2

3, 3

4, 4

新数据

field1, field2

1, 1

2, 9

5, 5

设置:标志字段是flag,关键字段是 field1, 比较字段是field2

合并后的数据

field1; field2; flag

1; 1; identical

2; 9; changed

3; 3; deleted

4; 4; deleted

5; 5; new

原文地址:https://www.cnblogs.com/mxcl/p/9215308.html

时间: 2024-10-22 01:31:59

kettle 合并记录步骤中的 关键字段和 比较字段的说明的相关文章

Kettle合并记录步骤

转载: http://blog.itpub.net/post/37422/464323 该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配.比较.合并. 需要设置的参数: 旧数据来源:旧数据来源的步骤 新数据来源.新数据来源的步骤 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种. 1. “identical” – 旧数据和新数据一样 2. “changed” – 数据发生了变化; 3. “new” –

kettle中的合并记录使用记录

注意:合并记录的使用前提是2个数据源都按比较关键字排过序,否则合并之后的数据不准确,可能会多出很多. 该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配.比较.合并. 需要设置的参数: 旧数据来源:旧数据来源的步骤 新数据来源.新数据来源的步骤 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种. 1. "identical" – 旧数据和新数据一样 2. "changed"

Oracle生成查询包括对应于所有数据表记录语句中指定的字段名

应用:已知的字段名,表中的所有数据的查询数据库中包含的所有数据表的字段名 操作方法:指定字段名,用户数据库表,它可以执行以下查询 --Oracle生成查询包括对应于所有数据表记录语句中指定的字段名 declare mycolumnname VARCHAR(255):='userid';--定义要查询的字段名变量,执行前改动成您要查询的字段名myownername VARCHAR(255):='system';--定义要查询的数据库username变量,执行前改动成您要查询的数据库username

《BI那点儿事》ETL中的关键技术

ETL(Extract/Transformation/Load)是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤. ETL过程中的主要环节就是数据抽取.数据转换和加工.数据装载.为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流.调度引擎.规则引擎.脚本支持.统计信息等. 数据抽取 数据抽取是从数据源中抽取数据的过程.实际应用中,数据源较多采用的是关系数据库.从数据库中抽取数据一般有以下几种

KETTLE使用javascript步骤过滤特殊字符

使用kettle在抽取大量excel数据时,总是遇到excel中有一些特殊字符,导致ExecuteSQL script步骤执行失败,本文记录一些方法过滤一些特殊字符.同行有更好的方式实现,欢迎指点,共同学习. 完整的实现转换截图如下 1.  使用javascript步骤过滤所有string字段的字符 使用javascript步骤可以通过代码来实现,避免增加过多的步骤,且一次性过滤所有的字段:代码如下: for (vari=0;i<getInputRowMeta().size();i++){ /

ABAP 数据字典中的参考表和参考字段的作用

     ABAP数据字典中的参考表和参考字段的作用 大家最初在SE11中创建表和结构的时候都会遇到一个问题,如果设定了某个字段为QUAN或者CURR类型,也就是数量或金额的时候,总会要求输入一个参考表... 大家最初在 SE11 中创建表和结构的时候都会遇到一个问题,如果设定了某个字段为 QUAN 或者 CURR 类型,也就是数量或金额的时候,总会要求输入一个参考表和参考字段,它是做什么用的呢? 这要从数字的本质说起,大家都知道一句话“数字会说话”,但是,商业数字不是代数,一个没有没有单位的商

利用python 提取log 文件中的关键句子,并进行统计分析

利用python开发了一个提取sim.log 中的各个关键步骤中的时间并进行统计的程序: #!/usr/bin/python2.6 import re,datetime file_name='/home/alzhong/logs/qtat1/R2860.01.13/sim-applycommitrollback-bld1.log' file=open(file_name,'r') acnum=[];time_res=[];lnum=0 def trans_time(time): t1=datet

数据库 UPDATE多条记录不同值,同时UPDATE多个字段

需求 如下两张表student(学生表).score(测试成绩表) 现需要统计:2015-03-10日之后,性别 age=1 的测试成绩的 总分 与 平均分. 要求:使用一个SQL统计score表,将结果更新到student表的score_sum和score_avg字段中. 结果如图: 实现: 如果我们只需要更新一个字段,MYSQL和ORACLE语法是一样的,在 set 后面跟一个子查询即可,如下: UPDATE student D   SET D.score_sum =        (   

记录神经网络中一些小知识点

记录神经网络中一些小知识点 1 Caffe中的blob维度 Caffe中的blob具有4个维度,分别是num,channel,width和height: 其中我们在定义各个网络层时,常用到的一个参数numout,就是指定的channel: 比如说,维度为1*3*5*5的数据输入网络(即每次输入一张5*5大小的3通道图),经过一个stride为2,pad为1,kernel为2,numout为2的卷积层后,维度就变成了1*2*3*3: 假如输入有n个通道,计算时,caffe就会对应产生n个filte