ETL基础1(概念)

抽取(Extract):

一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是 ETL 解决方案的成功实施的一个主要障碍。

转换(Transform):

任何对数据的处理过程都是转换。这些处理过程通常包括(但不限于)下面一些操作:
移动数据
根据规则验证数据
数据内容和数据结构的修改
将多个数据源的数据集成
根据处理后的数据计算派生值和聚集值

加载(Load):

将数据加载到目标系统的所有操作。
概念扩展:ELT,EII(Enterprise information integration)/Data federation

架构图:

商业ETL

1 Informatica
2 IBM DataStage
3 Microsoft SSIS
4 Oracle ODI

开源ETL

1 Kettle
2 Talend
3 CloverETL
4 Ketl,Octopus …
时间: 2024-08-03 11:21:56

ETL基础1(概念)的相关文章

Linux 程序设计学习笔记----终端及串口编程基础之概念详解

转载请注明出处,谢谢! linux下的终端及串口的相关概念有: tty,控制台,虚拟终端,串口,console(控制台终端)详解 部分内容整理于网络. 终端/控制台 终端和控制台都不是个人电脑的概念,而是多人共用的小型中型大型计算机上的概念. 1.终端 一台主机,连很多终端,终端为主机提供了人机接口,每个人都通过终端使用主机的资源. 终端有字符哑终端和图形终端两种. 控制台是另一种人机接口, 不通过终端与主机相连, 而是通过显示卡-显示器和键盘接口分别与主机相连, 这是人控制主机的第一人机接口.

GL_GL系列 - 总账系统基础(概念)

1. 分类账 分类账是公司财务记录的核心,任何事物处理都必须经过这个环节 主要分类账: 按4C定义的用于保存记录的主要分类账 科目表 日历 币种 子分类续航会计方法 辅助分类续航: 用于辅助目的, 跨国公司可借助其遵守多种法律要求 可不主要分类账不同: 科目表 日历 币种 会计方法 分类续航处理选项 分类账的基本要素 帐套 会计科目结构 - 会计期间 - 本为币币种 - 定义子分类账会计方法 总账中可与分类账共享的元素 账户结构 值集 段值 安全性规则 交叉验证规则 会计日历 期间 期间类型 币

Python 之路 Day06 类基础和概念

本章大纲: 类的对象和类的区别 类的名称空间 __dict__ 类的对象的名称空间 __dict__ 绑定方法和非绑定方法 类和类型 变量变形(封装变量,控制变量引用)__ 类的绑定方法 id命令分析内存地址(类的名称空间属性和类对象名称空间属性内存指向) is命令(比较内存地址指向) property类对象的属性方法 staticmethod类对象的非绑定方法 __str__自定义str(self)  类对象字符串格式打印 类的继承 __bases__显示类的继承 类的继承查找顺序 类的继承查

ETL 的一些概念

1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL项目组的作用是什么? 答: 逻辑数据映射(Logical Data Map)用来描述源系统的数据定义.目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表.维度表或支架维度表. SCD类型:对于维度

黑马程序员 java基础基本概念

1.什么是编程? 编程就是让计算机为解决某个问题而使用某种程序设计语言编写程序代码,并最终得到结果的过程. 为了使计算机能够理解人的意图,人类就必须将需解决的问题的思路.方法.和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步地区工作,完成某种特定的任务.这种人和计算机之间交流的过程就是编程. 2.Java语言概述,历史.特点 是SUN(Stanford University Network,斯坦福大学网络公司)1995年推出的一门高级语言.是一种面向Internet的

维度模型数据仓库基础对象概念一览

一.度量.指标.指标器 度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的.连续的字段,就是度量.这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元.户数.如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量没法汇总. 在OLAP中还有计算度量的说法,用一个总费用除以用户数,得到每户平均费用.但这究竟还算不算度量了呢?这已经不是原本意义上的度量了,只是为了称呼方便而已. 这就得说到指标,英文的Metric.在绩效管理软件里面,通常是有这个概

1.1.1Java基础--基本概念

写在前面:说来有些惭愧,从写第一个java程序到现在,已经是一年,却一直没有写博客,今天终于要开启第一篇,以下都是我个人的一些理解总结,可能有些理解不到位,望理解,如能指出,甚是感激 1.JDK是什么?JRE是什么? JRE: Java Runtime Environment 即java运行时环境,包含了java虚拟机,java基础类库.是使用java语言编写的程序运行所需要的软件环境 JDK:Java Development Kit 即Java软件开发工具包,包括了Java运行环境.Java工

JavaScript基础——基本概念:数据类型及其转换

任何语言的核心必然会描述这门语言最基本的工作原理.而描述的内容通常都要设计这门语言的语法.操作符.数据类型.内置功能等用于构建复杂解决方案的基本概念. 语法 ECMAScript的语法大量借鉴了C及其他类语言(如Java和Perl)的语法.因此,熟悉那些语言的开发人员在接受ECNAScript更加宽松的语法时,一定会有一种轻松自在的感觉. 区分大小写 要理解的第一个概念就是ECMAScript中的一切(变量.函数和操作符)都区分大小写.标识符 所谓标识符,就是指变量.函数.属性的名字,或者函数的

Mysql安装以及基础知识概念

一.软件安装及服务器设置 安装教程:http://www.runoob.com/mysql/mysql-install.html Navicat for MySQL 连接 Mysql 8.0.11 出现1251- Client does not support authentication protocol 错误 参考解决方法:https://blog.csdn.net/seventopalsy/article/details/80195246 Windows 安装 MySQL 常见问题 参考解