采用ETL with RDBMS模式来实现ETL

目前Teradata数据仓库的ETL作业采用ELT方式, 因为loading太重了, 需要将ETL压力转移到专门的ETL Server上. 对于ETL工具, 市场上已有很成熟的商业/开源工具, 比如Informatica的PowerCenter, IBM的Datastage, 开源的Kettle.

下面是我自己的一些思考, 出发点是, 如何花比较小的代价将ELT模式切换到ETL模式. 我的推荐是:
采用ETL with RDBMS模式, 而不是传统的ETL工具. ETL with RDBMS这个词是我仿照SQL on Hadoop 造的, 我觉得很形象. 我们没有必要重新造轮子, 一个ETL和DB的组合就可以. 在这个组合中, ETL工具不需要有很强大的Transform功能, 只要有高效的Extract和Load功能即可,  RDBMS需要有强大的SQL支持. 目前看比较好的一个选择是 SSIS + SQL Server 企业版, 这个组合License费用不高; 另一个更廉价的组合是Kettle + PostgreSQL.

Kettle我没有使用经验, 以下以SSIS说明该方案的一些特点:
    1. 高效的E和L的性能
        微软官网提供 Oracle 和 Teradata 专门的SSIS connector, download link(http://www.microsoft.com/en-us/download/details.aspx?id=29283).
    2. 更小的迁移efforts
        复杂ELT作业的迁移思路, 可以采用 ELT+EL  来做 ETL.  第1个ELT,完成数据抽取到SQL Server, 然后在SQL Server中使用SQL来做Transform, 这个SQL可以借鉴原Teradata中的SQL.  第2个EL, 将抽取转换后的结果数据到Teradata.  
    3. 更低的费用
        Informatic 高级版的list price(1-core)大约为8万美元, IBM datastage的list price(1-core)大概是19万美元, 而SQL Server 2012企业版的list price(1-core)大概是7千美元, SSIS 是SQL Server企业版中内置的ETL工具, 无需专门的License.
    4. 开发环境: 架构在Visual Studio 之上的作业设计器, 甩其他ETL tools几条大街
    5. 扩展容易: 可以使用流行的C#/VB.NET语法来完成某些特殊的处理要求
    6. 基于文件的作业载体: 每个作业本身就是一个文件, 部署容易, 天然适合做版本管理
    7. 更强大的社区, 更丰富的文档(MSDN): 一般问题网上就能找到解决方法
    8. Top down的作业设计思路: 更符合开发人员的思维习惯

我们在回过头来看看ETL工具宣称的优点:
1. 友好的作业设计界面(可视化拖拉组件)
    ETL工具的用户往往是IT开发人员, 对他们而言, SQL的可读性往往比可视化的组件更友好
2. 扩展性
    高端的ETL工具都宣称自己有比较好的线性扩展性. 经我测试, Datastage扩展性体现的还不错, PowerCenter没有体现出. ETL with RDBMS 这个方案因为计算引擎用的是RDBMS, 所以不具备线性扩展性. 但我个人认为线性扩展性意义其实并不大, 如果能做到将多个ETL 作业压力平摊到几个ETL节点上, 意义更大, 这个粗粒度的负载均衡可以借助调度来实现, 难度并不大.

考虑到需要多个ETL Server, 所以采用传统的package deployment model, 而不是SSIS 2012默认的project deployment model. Project 部署模式需要在SQL Server上创建SSISDB数据库.

时间: 2024-10-07 17:05:02

采用ETL with RDBMS模式来实现ETL的相关文章

CRM项目开发流程:采用《三层架构模式》

采用<三层架构模式> 1.根据顾客的需求设计数据表格,明确表之间的关联,建好约束 2.实体Bean的设计(一个表对应一个实体) 3.业务层设计(一个实体类一个业务接口,一次提交一个业务方法) 4.持久层设计(一个实体类一个持久接口,一次数据操作一个持久方法) 一.数据库表的建立: 建表时要注意表与表之间的联系,明确哪些是主键,哪些是外键,建立好约束. 要求数据添加合理,添加记录数量也要适当的多点,不然直接会影响后期持久层和业务层方法的调试,从而影响整个项目的开发. 表的列名要求命名规范,便于理

【转载】DataStage(ETL)技术总结

数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,  Load).    IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取.转换和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具.    通常数据抽取工作分抽取.清洗.转换.装载几个步骤:   

ETL构建数据仓库五步法

ETL构建企业级数据仓库五步法 在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大 厦,那 么ETL就是大厦的根基,ETL抽取整合数据的好坏直接影响到最终的结果展现.所以ETL在整个数据仓库项目中起着十分关键的作用,必须摆到十分重要的位 置.一.什么是ETLETL是数据抽取(Extract).转换(Transform).加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换

数据仓库建模与ETL的实践技巧(转载)

一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源Systam.Data仓库中的Data是细节的.集成的.面向主题的,以OLAPSystam的分析需求为目的. Data仓库的架构模型包括了星型架构与雪花型架构两种模式.星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰

ETL学习笔记之概念篇

导读:ETL,Extraction-Transformation-Loading的缩写,即数据抽取(Extract).转换(Transform).装载(Load)的过程,它是构建数据仓库的重要环节. 关键词:ETL 数据仓库 OLTP OLAP ETL,Extraction-Transformation-Loading的缩写,即数据抽取(Extract).转换(Transform).装载(Load)的过程,它是构建数据仓库的重要环节. ETL是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库

BI 主要环节 ETL 相关知识

BI架构-BI 主要环节 ETL 相关知识 主要功能  :将源系统的数据加载到数据仓库 及数据集市层中: 主要问题体现:  复杂的源数据环境,包括繁多的数据种类.巨大的加载数据量.错综复杂的数据关系和参差不齐的数据质量 常见术语  ETL:数据抽取.转换.加载(Extract/Transform/Load)  EXF:抽取的文件(Extract File)  CIF:共用接口文件(Common Interface File)  PLF:预加载文件(Preload File)  LDF:

大数据数据仓库-微软BI SSIS ETL 控件与案例

一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源Systam.Data仓库中的Data是细节的.集成的.面向主题的,以OLAPSystam的分析需求为目的. Data仓库的架构模型包括了星型架构与雪花型架构两种模式.星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰

六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)

六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline kettle Oracle Goldengate informatica talend DataX 设计及架构 适用场景 主要用于各类数据融合.数据交换场景,专为超大数据量.高度复杂的数据链路设计的灵活.可扩展的数据交换平台 面向数据仓库建模传统ETL工具 主要用于数据备份.容灾 面向数据仓库建模

数据仓库建模与ETL实践技巧

一.数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统.数据仓库中的数据是细节的.集成的.面向主题的,以OLAP系统的分析需求为目的. 数据仓库的架构模型包括了星型架构(图二:pic2.bmp)与雪花型架构(图三:pic3.bmp)两种模式.如图所示,星型架构的中间为事实表,四周为维度表,类似星星:而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表