SSIS Design6:利用数据流

  数据流利用内存来缓冲数据,并在内存中处理数据转换,由于内存的访问速度是非常快的,所以SSIS数据流转换性能是非常高效的。SSIS Engine将数据分批加载到内存中,当Data Flow将一批新的数据加载到内存时,下游转换组件会对已经加载到内存中数据进行处理,同时,目的组件会将处理完成的数据加载到Target Table中,数据的读取,转换和加载同时进行,这就是数据流的优势。

1,利用数据流,能够减少暂存和昂贵的disk IO 操作

在大量数据的ETL系统中,Disk IO是系统性能的bottlenect。相比内存 RAM,Disk IO的读取和写入速度非常慢,将内存缓冲区中的数据写入暂存表,再从暂存表中读取数据到内存中,不仅成倍增加了Disk IO,而且限制了数据流的并发处理能力。请记住,使用暂存表的场景是:ETL系统中存在大量数据的更新操作。这是由于Data Flow 没有基于集合的更新转换组件,OLEDB Command 转换组件是逐行对数据进行更新操作,使用暂存表,能够充分利用RDBMS对数据进行基于集合的更新操作的优势。如果ETL系统不存在大量数据的更新操作,请选择使用数据流来处理数据。

2,利用数据流,减少对RDBMS的依赖

使用Data Flow转换组件来联接和清洗数据是十分高效的,这是因为,数据的读取,转换和加载同时进行。RDBMS对数据的处理是原子性的,在数据被处理完成之前,是不能被其他SQL语句处理的,相反,数据流可以并行地处理数据的提取,清洗,联接和写入,因此,充分利用数据流的并发处理优势,会使数据整体的处理时间大幅减少。

3,利用RDBMS处理数据源

在使用Source适配器获取数据时,利用数据库的order by 子句进行排序,将会比Sort 转换更有效率;对于源是多表联接的查询语句,使用RDBMS获取数据将会更快。

时间: 2024-10-23 09:42:41

SSIS Design6:利用数据流的相关文章

SSIS技巧--优化数据流缓存

问题 我们经常遇到一种情况,在SSMS中运行很慢的一个查询,当把查询转化成从源到目的数据库的SSIS数据流以后,需要花费几倍的时间!源和数据源都没有任何软硬件瓶颈,并且没有大量的格式转换.之前看了很多关于这种情况的优化方案,例如扩大缓存大小等.虽然也能快一点,但是仍然远远比直接在SSMS中查询的速度满的多.究竟是什么原因导致的呢? 解决 首先这个数据流性能是有很多因素决定的,例如源数据的速度.目标库的写入速度.数据转换和路径数量的使用等等.但是,如果只是一个很简单的数据流,那么提高缓存的容量即可

SSIS 控制流和数据流(转)

理解控制流和数据流的一个入口是看他们如何运行的.一个控制流任务是一个最小的执行单位,它的运行结果有成功,失 败,和完成,在运行它的下一个任务之前必须得到这些结果.在数据流任务中,转换时最基本的元素.一个转换任务和控制任务是有很大的区别的.转换任务之间是 可以并行执行的,不必等待上一个转换任务执行完毕. 控制流和数据流之间的比较 控制流和数据流之间看上去很相似,但是他们有天壤之别.控制流不会处理组件之间的数据,它负责协调单独的组件单元之间的工作.这里有一些概念:?  工作流协调?  处理导向? 

(转)SSIS处理导入数据时, 存在的更新, 不存在的插入

问题描述: 当你把数据从其他数据库, 或者是文本文件之类的其他数据源导入到目的数据库时, 有时希望在导入的处理中, 能够实现"数据存在时更新, 不存在时导入" 在之前, 一般是通过导入临时表, 然后再判断处理导入正式表的, 在SQL Server 2005中, SSIS可以在导入处理时直接完成这种处理. 下面具体演示一下如何用SSIS完成这样的处理: 1.          准备测试环境 -- 1. 在数据库中创建下面的对象 USE tempdb GO CREATE TABLE dbo

shell下的作业管理[转]

作业管理 举例来说,我们在登陆 bash 后, 想要一边复制文件.一边进行数据搜寻.一边进行编译,还可以一边进行 vi 程序撰写! 当然我们可以重复登陆那六个文字介面的终端机环境中,不过,能不能在一个 bash 内达成? 当然可以啊!就是使用 job control 啦! 进行工作管理的行为中, 其实每个工作都是目前 bash 的子程序,亦即彼此之间是有相关性的. 我们无法以 job control 的方式由 tty1 的环境去管理 tty2 的 bash ! 或许你会觉得很奇怪啊,既然我可以在

交叉表数据提取

在工作中我们会有很多报表,是二维的表格,很难对其进行二次的分析.这个时候我们需要将其转化为一维表格,SQL SERVER的data tools中的SSIS可以轻松搞定这个功能. 在ssis中的数据流任务中有一个工具叫做逆透视,只要将报表转化成标准的sql表格作为数据源,即可用“逆透视”工具进行转换,轻松得到一维数据.

浅谈react

现在最热门的前端框架,毫无疑问是 React . 上周,基于 React 的 React Native 发布,结果一天之内,就获得了 5000 颗星,受瞩目程度可见一斑. React 起源于 Facebook 的内部项目,因为该公司对市场上所有 JavaScript MVC 框架,都不满意,就决定自己写一套,用来架设 Instagram 的网站.做出来以后,发现这套东西很好用,就在2013年5月开源了. 今天我想分享一下利用react编写数据流的方法, 那么什么事数据流?为什么要用数据流? 其实

浅谈react的初步试用

现在最热门的前端框架,毫无疑问是 React . 上周,基于 React 的 React Native 发布,结果一天之内,就获得了 5000 颗星,受瞩目程度可见一斑. React 起源于 Facebook 的内部项目,因为该公司对市场上所有 JavaScript MVC 框架,都不满意,就决定自己写一套,用来架设 Instagram 的网站.做出来以后,发现这套东西很好用,就在2013年5月开源了. 今天我想分享一下利用react编写数据流的方法, 那么什么事数据流?为什么要用数据流? 其实

第十七章、程序管理与 SELinux 初探 工作管理 (job control)

工作管理 (job control) 这个工作管理 (job control) 是用在 bash 环境下的,也就是说:『当我们登陆系统取得 bash shell 之后,在单一终端机介面下同时进行多个工作的行为管理 』.举例来说,我们在登陆 bash 后, 想要一边复制文件.一边进行数据搜寻.一边进行编译,还可以一边进行 vi 程序撰写! 当然我们可以重复登陆那六个文字介面的终端机环境中,不过,能不能在一个 bash 内达成? 当然可以啊!就是使用 job control 啦! ^_^ 什么是工作

软件工程:结构化方法 VS 面向对象方法

一.基本概念 1.结构化方法 结构化方法是一种传统的软件开发方法,它是由结构化分析.结构化设计和结构化程序设计三部分有机组合而成的. 基本思想:把一个复杂问题的求解过程分阶段进行,而且这种分解是自顶向下,逐层分解,使得每个阶段处理的问题都控制在人们容易理解和处理的范围内. 2.面向对象方法 面向对象方法是一种把面向对象的思想应用于软件开发过程中,指导开发活动的系统方法,简称OO,是建立在"对象"概念基础上的方法学.对象是由数据和容许的操作组成的封装体,与客观实体有直接对应关系,一个对象