从Oracle收购sunopsis看ETL和ELT产品的趋势

从Oracle收购sunopsis看ETL和ELT产品的趋势

日期:2008-6-17 来源:amteam    我要评论

 |  | 

导读:本文主要从Oracle收购sunopsis分析ETL和ELT产品的趋势以及说明ELT工具比ETL工具能够处理大数据量效率更高的原因。

关键词:Oracle sunopsis ETL ELT

  10月10日收到Oracle收购sunopsis的消息。开始觉得有些意外。仔细一考虑应该在情理之中。

  第一,sunopsis采用ELT架构换句话说也就是说Sunopsis用它采用的RDBMS的功能去完成ETL工作,这应该和oracle这样的RDBMS厂商在ETL产品上采取的策略是一致的。

  第二,Sunopsis采用开放的架构不但能够支持Oracle,几乎所有的目前流行的RDBMS它都支持。这点对于Oracle一直觊觎的非oracle平台的数据仓库解决方案,Sunopsis在ETL工具上是一个不可替代的产品。

  第三点,Sunopsis产品的重点在于EAI的应用,这方面也是Oracle要涉足的。第四点也是一个重要之点就是Sunopsis是用java开发的,这方面和Oracle是一致的,也利于Oracle把其纳入其未来的Fusion中间件中。

  好了说了一些题外话,我们要切进今天的主题了"ETL和ELT之争",它更像是是一场下赌注。

  一方是目前占主流的ETL厂商用自己开发的数据引擎去完成Extract,Load,Transformation任务。而ELT厂商在把赌注压在目前流行的RDBMS厂商上(也就是用它采用的各自的RDBMS的本地SQL语句和工具完成E,L,T这三个任务)。其实ELT厂商的思路和我们手工编写完成ETL任务的思路是一致的。即都是充分利用源和目的RDBMS的功能来完成ETL任务。不过ELT工具把很多ETL工具的功能实现了(如元数据管理,可视化设计环境,负载平衡,自动生成代码,多个用户协同开发,版本控制,CDC,缓慢变化维的处理等等。而且也支持自动生成ETL实现过程的代码。

  上个星期我和一个客户交流,他就一直追问ELT工具到底怎么实现ELT这个流程的每一个步骤。他说你把源数据抽取到staging area后,然后再装载到目的数据库去完成转换。不是和我用ETL工具把ETL工具装载在目的端的效果不是一样吗?

  我这里要说的是ELT最早是由Sunopsis提出这个概念。但我们从它产品完成一个标准的ELT过程所产生的代码看,它的转换不仅发生在目的端,staging同样发生在源数据端。它的原则就是在那完成转换最利于提高效率,那就在那里进行转换。我到觉得ELT更像是它提出的一个招牌性广告语言。另一个原因也是因为目的端的RDBMS的功能比较强,从效率角度看比较多的T发生在目的端,它才把LT改了一个顺序。这样更能引起大家的注意吧了。

  从本质上说ELT之类的工具(像Sunopsis)。其实是一个手动完成ETL任务的代码自动生成器。大家设想一下如果我们不采用ETL工具,而采用手写完成一个ETL任务。我们肯定不会把所有的转换的工作都放在目的端。我们也会遵循效率优先的原则,能在源端转速度快转换就在源端,如果源端不可以完成这个转换,我们会在staging area 或是目的端。

  那有的读者会问,说了半天ELT工具比ETL工具能够处理大数据量效率更高的原因在那里?

  答案在于ETL厂商开发的数据引擎的装载和SQL语句和目前主流的RDBMS在装载和本地SQL语句谁强的问题。在于ELT工具充分的利用了源和目的RDBMS的本地SQL语句和相应的工具。就像我们手写代码一样。ELT效率更高的根本原因在于当前RDBMS厂商的产品的功能和本地SQL语句太强大了,而且这种强大随着时间的推移还要继续扩大。它比九十年代中期RDBMS产品在数据装入,转换方面增强太多了。而当前主流ETL工具都是在90年代就已经开发出来了,它们那个时代不得不自己开发出一个数据引擎,否则就不能完成数据仓库级别的数据转换,转换任务。

  其实症结就在于那时的RDBMS厂商的产品在转换,装载方面的功能几乎没有。ETL厂商不自己开发一个数据引擎没有别的指望。到了今天主流RDBMS厂商(像 Oracle ,DB2,SQL Server)的转换和装载功能和其开发未来此类更强功能的实力已经不容置疑了。那么大家还有谁会怀疑RDBMS将成为ETL工业的标准

时间: 2024-11-17 12:46:24

从Oracle收购sunopsis看ETL和ELT产品的趋势的相关文章

啥是ETL、ELT

ETL就是Extract.Transfrom.Load即抽取.转换.加载三个英文单词首字母的集合.抽取:就是从源系统抽取需要的数据,这些源系统可以是同构也可以是异构的:比如源系统可能是Excel电子表格.XML文件.关系型数据库,而目标系统通常都是关系型的数据仓库. 转换:源系统的数据按照分析目的,转换成目标系统要求的格式.其实这个名词并没有完全表达出这个步骤的目的,更准确的说法应该是数据清洗和数据加工. 加载:把转换后的数据装载到目标数据库.作为联机分析.数据挖掘的基础. 整个ETL过程就像是

数据分析你需要知道的操作:ETL和ELT

如果您接触过数据仓库, 您可能会使用 ETL (Extract. Transform. Load) 或 ELT ( Extract.Load. Transform) 将您的数据从不同的来源提取到数据仓库中.这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一个位置, 并使公司的成员能够从不同业务部门查看综合数据.ETL和ELT两个术语的区别与过程的发生顺序有关.这些方法都适合于不同的情况. 一.什么是ETL? ETL是用来描述将数据从来源端经过抽取(ex

使用 Hive 作为 ETL 或 ELT 工具

用来处理数据的 ETL 和 ELT 工具的概述 数据集成和数据管理技术已存在很长一段时间.提取.转换和加载(ETL)数据的工具已经改变了传统的数据库和数据仓库.现在,内存中转换 ETL 工具使得提取.加载.转换(ELT)和 ETL 变得更快.对于大数据来说,是否能够使用内置的 Hadoop 工具而不是使用传统的 ETL 工具来提取.加载和转换数据呢? 大多数 ETL 软件包需要自己的服务器.处理.数据库和许可,还需要专家在该特定的工具中安装.配置和开发它们,而且这些技能并非总是可以转移的.Mic

java servlet+oracle 新手可看

最近公司领导告诉接下去接的一个产品,可能会涉及到oracle数据库,以前用得最多的是mssql,前些时间学了下mysql也算少许用过.oracle没接触过.应为我之前做过.net开发,所以数据访问接口这块,涉及到的ashx wcf webserver这些,学了下servlet感觉 这些技术比较像 ashx编写的接口. 一. 首先在电脑上安装了 oracle数据库,  安装ORACLE数据库按常理说,直接下载安装就行了,但是中途是遇到了问题的,原因就是我的系统是Win7 64    oracle的

从ORACLE RAC角度看跨数据中心的存储双活配置注意事项

ORACLE RAC在设计的时候是没有考虑跨数据中心双活的,它的设计目的是为一个数据中心内有着共享存储的多个主机实现负载均衡和高可用性.但是由于它的架构确实有着跨数据中心实现负载均衡和高可用性的潜力,所以有几家存储设备供应商对它的使用环境做了扩展,提出了跨数据中心的解决方案.ORACLE对此采取了默认的态度,但是建议所有的解决方案在投入客户生产之前进行仔细的测试. 对于RAC而言,跨数据中心解决方案的最大瓶颈是节点之间的interconnect,因为它对时延和带宽的要求都非常高.一般而言,本地i

面试题: 数据库 oracle数据库 未看6

Oracle数据库面试题总结 2017年04月27日 22:41:44 阅读数:9271 1.SQL语句分类 DQL(数据查询语言)select DML(数据操作语言)insert.delete.update DDL(数据定义语言)create.drop.alter DCL(数据控制语言)grant:把权限授予用户.revoke:把权限从用户收回 TPL(TCL,事务控制语言):commit.rollback 2.Oracle是怎样分页的 Oracle用rownum进行分页 分页语句的步骤: a

ETL工具主流产品

主流ETL产品:Ascential公司的Datastage(Datastage在2005年被IBM收购).Informatica公司的Powercenter. NCR Teradata公司的ETL Automation(一套ETL框架.主要关注“抽取”).ETL工具有:OWB(Oracle Warehouse Builder).ODI(Oracle Data Integrator).Informatic PowerCenter(Informatica公司).AICloudETL.DataStag

Oracle ODI系列之一(ODI知识模块)

Oracle ODI系列之一(ODI知识模块) ODI简介 ODI(Oracle Data Integrator)前身是Sunopsis Active Integration Platform,在2006年底被Oracle收购,重新命名为Oracle Data Integrator.主要定位于在ETL和数据集成的场景里使用.ODI和Oracle原来的ETL工具OWB相比有一些显著的特点,比如和OWB一样是ELT架构,但是比OWB支持更多的异构的数据源等等,本系列文章将逐步介绍ODI的一些基本概念

数据仓库-ETL

ETL 概念 ETL中三个字母分别代表的是Extract.Transform.Load,即抽取.转换.加载. (1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据: (2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误.不一致的数据进行清洗和加工. (3)数据加载:将转换后的数据装载到目的数据源. ETL原本是作为构建数据仓库的一个环节,负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或