数据仓库-ETL

ETL 概念

ETL中三个字母分别代表的是Extract、Transform、Load，即抽取、转换、加载。

（1）数据抽取：从源数据源系统抽取目的数据源系统需要的数据；

（2）数据转换：将从源数据源获取的数据按照业务需求，转换成目的数据源要求的形式，并对错误、不一致的数据进行清洗和加工。

（3）数据加载：将转换后的数据装载到目的数据源。

ETL原本是作为构建数据仓库的一个环节，负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。现在也越来越多地将ETL应用于一般信息系统中数据的迁移、交换和同步。

2.ETL中的关键技术

ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能，各个ETL工具一般会进行一些功能上的扩充，例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。

3.主流ETL工具

ETL工具从厂商来看分为两种,一种是数据库厂商自带的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。另外一种是第三方工具提供商，如Kettle。开源世界也有很多的ETL工具，功能各异，强弱不一。

(1)Oracle Data Integrator（ODI）

ODI前身是Sunopsis Active Integration Platform，在2006年底被Oracle收购，重新命名为Oracle Data Integrator，主要定位于在ETL和数据集成的场景里使用。ODI和Oracle原来的ETL工具OWB相比有一些显著的特点，比如和OWB一样是ELT架构，但是比OWB支持更多的异构的数据源，ODI提供了call web service的机制，并且ODI的接口也可以暴露为web service，从而可以和SOA环境进行交互。ODI能够检测事件，一个事件可以触发ODI的一个接口流程，从而完成近乎实时的数据集成。

ODI的主要功能特点有:

a.使用CDC作为变更数据捕获的捕获方式。

b.代理支持并行处理和负载均衡。

c.完善的权限控制、版本管理功能。

d.支持数据质量检查，清洗和回收脏数据。

e.支持与JMS消息中间件集成。

f.支持Web Service。

(2)SQL Server Integration Services（SSIS）

SSIS是SQL Server 2005的新成员，在SQL Server的早期版本中，其实就已经有了它的雏形，那时的名称叫做数据转换服务（DTS）。在SQL Server 2005的前两个版本SQL Server 7.0和SQL Server 2000中，DTS主要集中于提取和加载。通过使用DTS，可以从任何数据源中提取数据以及将数据加载到任何数据源中。在SQL Server 2005中，对DTS进行了重新设计和改进形成了SSIS。SSIS提供了数据相关的控制流、数据流、日志、变量、event、连接管理等基础设施。控制流也称为工作流或者任务流，它更像工作流，在工作流中每个组件都是一个任务。这些任务是按预定义的顺序执行的。在任务流中可能有分支。当前任务的执行结果决定沿哪条分支前进。数据流是新的概念。数据流也称为流水线，主要解决数据转换的问题。数据流由一组预定义的转换操作组成。数据流的起点通常是数据源(源表)；数据流的终点通常是数据的目的地(目标表)。可以将数据流的执行认为是一个流水线的过程，在该过程中，每一行数据都是装配线中需要处理的零件，而每一个转换都是装配线中的处理单元。

时间： 2024-10-11 03:43:52

数据仓库-ETL

数据仓库-ETL的相关文章

ETL中的数据增量抽取机制

数据仓库：Mysql->Hive

SQL Server数据仓库的基础架构规划

平安陆金所java 大数据算法 android开发

你对DBA的定义是什么?

详细图解快速入门kettle

你对于DBA的定义是什么

首席工程师揭秘：LinkedIn大数据后台是如何运作的

用润乾集算报表实现实时报表（T+0）的方案