数据分析你需要知道的操作:ETL和ELT

如果您接触过数据仓库, 您可能会使用 ETL (Extract、 Transform、 Load) 或 ELT ( Extract、Load、 Transform) 将您的数据从不同的来源提取到数据仓库中。这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一个位置, 并使公司的成员能够从不同业务部门查看综合数据。ETL和ELT两个术语的区别与过程的发生顺序有关。这些方法都适合于不同的情况。

一、什么是ETL?

ETL是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的最重要的环节,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库。

ETL架构的特殊优势:

ETL可以分担数据库系统的负载,可采用单独的硬件服务器部署

ETL相对ELT架构可以实现更为复杂的数据转化逻辑

ETL与底层的数据库数据存储无关

二、什么是ELT?

ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。当ETL过程需要提高效率,则可以通过对相关数据库进行调优,或者改变执行加工的服务器就可以达到。ELT 通常发生在 NoSQL 数据库中,具有处理非结构化数据的能力。一般数据库厂商会也会力推该种架构,像Oracle和Teradata都极力宣传ELT架构。

ELT架构的特殊优势:

ELT主要通过数据库引擎来实现系统的可扩展性

ELT可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性。

ELT可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。

ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。

通过对相关数据库进行性能调优,ELT过程获得3到4倍的效率提升一般不是特别困难。

三、总结

经过这些描述后可能会让您怀疑哪种方法更好。事实上, 在不同的情况下, 这些方法中的每一种都有优势, 最好的解决方案取决于你的项目情况。ELT在以下情况中,配合ETL工具将会将会达到更好的效果:

1、当您想要执行复杂的计算时,ETL工具比数据仓库或数据池更有效

2、如果要在加载到目标存储之前进行大量数据清理。ETL是一种更好的解决方案,因为您不会将不需要的数据移动到目标。

3、当您仅使用结构化数据或传统结构化数据仓库时。ETL工具通常最有效地将结构化数据从一个环境移动到另一个环境。

4、当你想要扩展补充数据时。如果要在将数据移动到目标存储时扩展补充数据,则需要使用ETL工具。例如,添加时间戳。

原文地址:https://www.cnblogs.com/fly-bird/p/12445030.html

时间: 2024-11-02 15:00:29

数据分析你需要知道的操作:ETL和ELT的相关文章

使用 Hive 作为 ETL 或 ELT 工具

用来处理数据的 ETL 和 ELT 工具的概述 数据集成和数据管理技术已存在很长一段时间.提取.转换和加载(ETL)数据的工具已经改变了传统的数据库和数据仓库.现在,内存中转换 ETL 工具使得提取.加载.转换(ELT)和 ETL 变得更快.对于大数据来说,是否能够使用内置的 Hadoop 工具而不是使用传统的 ETL 工具来提取.加载和转换数据呢? 大多数 ETL 软件包需要自己的服务器.处理.数据库和许可,还需要专家在该特定的工具中安装.配置和开发它们,而且这些技能并非总是可以转移的.Mic

从Oracle收购sunopsis看ETL和ELT产品的趋势

从Oracle收购sunopsis看ETL和ELT产品的趋势 日期:2008-6-17 来源:amteam    我要评论 大 | 中 | 小 投稿 打印 导读:本文主要从Oracle收购sunopsis分析ETL和ELT产品的趋势以及说明ELT工具比ETL工具能够处理大数据量效率更高的原因. 关键词:Oracle sunopsis ETL ELT 10月10日收到Oracle收购sunopsis的消息.开始觉得有些意外.仔细一考虑应该在情理之中. 第一,sunopsis采用ELT架构换句话说也

啥是ETL、ELT

ETL就是Extract.Transfrom.Load即抽取.转换.加载三个英文单词首字母的集合.抽取:就是从源系统抽取需要的数据,这些源系统可以是同构也可以是异构的:比如源系统可能是Excel电子表格.XML文件.关系型数据库,而目标系统通常都是关系型的数据仓库. 转换:源系统的数据按照分析目的,转换成目标系统要求的格式.其实这个名词并没有完全表达出这个步骤的目的,更准确的说法应该是数据清洗和数据加工. 加载:把转换后的数据装载到目标数据库.作为联机分析.数据挖掘的基础. 整个ETL过程就像是

利用Python进行数据分析(15) pandas基础: 字符串操作

  字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join()方法也是连接字符串,比较它和"+"符号的区别: in关键字判断一个字符串是否包含在另一个字符串中: index()方法和find()方法判断一个子字符串的位置: index()方法和find()方法的区别是:如果不包含子字符串,index()会抛出一个异常,而find()会返回-1. c

Python数据分析必备Anaconda安装、快捷键、包安装

Python数据分析必备: 1.Anaconda操作 首先应该设置本地存放数据目录为工作目录,这样可以加载本地数据集到内存中 import os os.chdir("D:/BigData/Workspace/testdata/") #设置当前路径为工作路径 os.getcwd() #获取当前工作路径 2.安装Graphviz 摘录自官网: What is Graphviz? Graphviz is open source graph visualization software. Gr

如何用SPSS进行数据分析?

1.什么是SPSS SPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics.SPSS软件包最初由SPSS Inc.于1968年推出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析.作为世界社会科学数据分析的标准,SPSS操作操作界面极其友好,结果输出界面也很美观,同时还配备十分详细的用户手册. 1.1 SPSS的核心功能 ? 1.2 数据编辑功能 可以通过SPSS的数据编辑功能,对数据进行增删改等处理,还可以根据需要对数据进行拆分.加权.排序.聚

PDW V2培训简记

最近有幸参加了微软专家进行的为期一周PDW培训,将一些知识点记录如下: 不知道PDW是什么东西的,简单介绍一下:这是微软与HP/Dell合作推出的SQL Server数据仓库一体机,由HP或DELL提供硬件(机柜,四台服务器,两台交换机,IB),再由微软预装PDW版本的SQL Server 2012.购买了以后,直接通电就可运行.容量当然是可以从TB级增长到PB级,处理性能比普通SQL Server 2012快几十上百倍.主要用来进行大数据分析,不适合用于OLTP. 服务器配置: 四台物理的服务

三款大数据工具比拼,谁才是真正的王者

业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了.这个说法有点言过其实,现在很多的项目都是将Hadoop作为数据存储,然后利用SQL进行前端查询.这说明Hadoop需要一种高级查询语言的支持. Hadoop MapReduce虽然能够进行数据分析,但是太复杂了.于是,开发人员开发出了类似SQL的Pig和Hive. 大数据时代,我们有很多的查询工具可以选择.虽然SQL占据着绝对优势,但是随着大数据的持续升温,也给了Apa

微博广告Hubble系统:秒级大规模分布式智能监控平台架构实践

关键词:微博广告 Hubble 监控平台 D+ 大数据 机器学习 LSTM Tensorflow 业务背景 Hubble(哈勃,其含义是数据如浩瀚宇宙之大,Hubble 如太空望远镜,能窥见璀璨的星辰,发现数据的真正价值)平台定位为微博广告智能全景监控.数据透视和商业洞察. 计算广告系统是集智能流量分发.投放.结算.CTR 预估.客户关系管理等为一体的大型互联网业务系统.随着微博业务的快速增长,广告系统复杂度越来越高,成千上万的模块需要不停地进行计算和通信,如何保证这么复杂的系统正常健康运行是一