SSIS Design5：使用暂存

以数据流的方式来设计Package，将核心数据处理移动到数据流中，一般情况下，能够减少临时表的创建，获得较高的处理性能，在某些情况下，使用暂存表（staging table）能够优化package设计。

1，使用基于集合的更新操作

在大型系统中，数据更新通常是系统的bottleneck，因为SSIS不能在Data Flow 中执行基于集合的更新。在Data Flow中，OLEDB Command 转换组件是逐行对数据进行更新的，对每一行数据执行更新操作，会导致低下的性能。对于存在大量更新的数据流，能够有效解决数据更新问题的解决方案是：将需要更新的数据缓存到一个暂存表（staging table），使用TSQL 语句和暂存表对目标数据进行基于集合的更新操作。

2，使用CheckPoint从错误点重启Package

　　SSIS的CheckPoint记录的Control Flow Task的执行结果，如果Data Flow Task中的转换发生失败，那么CheckPoint 不会保留数据状态。当重启包时，数据流将会从头开始。如果将数据存到暂存表中，那么可以从暂存数据中重新启动。做法是：从源中读取数据，将其加载到暂存表中，然后从暂存表中获取数据，并对其应用转换逻辑。

3，增加Disk IO

将数据暂存到表中，会成倍增加Disk IO，当使用暂存表临时存储数据时，该数据最终被保存到Disk中，并且需要将数据从Disk读取数据到内存。因为需要移动大量的数据，磁盘IO通常是ETL的bottleneck，所以，在不需要大量更新数据的ETL中，应该减少对暂存表的需求，使用数据流完成相同的转换操作，由于数据流主要使用内存，相比disk，内存能够更快地访问，这样，不仅能够减少Disk IO的开销，而且能够减少ETL处理的时间。

时间： 2024-10-27 19:22:23

SSIS Design5：使用暂存的相关文章

SSIS 优化设计1：数据源的提取和使用暂存

在使用SSIS Package处理海量数据时,必须精心设计Package的各个Task组件,“锱铢必较”,以最快的速度和最小的资源消耗,完成既定的数据处理任务.在处理数据源提取时,数据的大小由两个方面决定:数据行的宽度和数据行的数量,为了减少ETL运行的时间,可以从源数据的提取上做优化设计,从数据源的输入上控制数据的数量和大小,以减少数据转换的次数,内存的消耗量,以及硬盘IO的次数. 一,减少行的宽度 1,只加载需要的数据列在Data Flow中,数据源允许加载整个Table 或View,虽然

git stash暂存文件

git stash 可用来暂存当前正在进行的工作, 比如想pull 最新代码,但又不想提交代码.先git stash暂存,pull之后,用git stash pop或者git stash apply取回暂存的代码继续修改. git stash --help可以查看git stash的帮助信息. git stash pop取回最后一次暂存的信息,并在暂存列表中删除. git stash list列出已有的多次暂存的信息. git stash apply [email protected]{0}也可

git 教程（5）--工作区和暂存区

Git和其他版本控制系统如SVN的一个不同之处就是有暂存区的概念. 工作区(working directory) 就是你在电脑里能看到的目录,比如我的learngit文件夹就是一个工作区: 版本库 (repository) 工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库. Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区,还有Git为我们自动创建的第一个分支master,以及指向master的一个指针叫HEAD. 分支和HEAD的概念我们

git工作区和暂存区

工作区(Working Directory) 就是你在电脑里能看到的目录,比如我的learngit文件夹就是一个工作区: 版本库(Repository) 工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库. Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区,还有Git为我们自动创建的第一个分支master,以及指向master的一个指针叫HEAD. 前面讲了我们把文件往Git版本库里添加的时候,是分两步执行的: 第一步是用git add把文件

git 暂存区

git的分为四个区----工作区,暂存区,版本库和存储区. 可以用git diff 去检测工作区,暂存区和版本库之间的不同. git diff --cached 检测工作区和暂存区之间的不同. git diff HEAD 检测工作区和版本区之间的不同. git status 显示工作区,暂存区与版本库之间文件不同. git 暂存区,布布扣,bubuko.com

git基础②工作区和暂存区

git和其他版本控制系统如svn的一个不同之处就是暂存区的概念工作区就是电脑上能看到的目录,可以理解为当前仓库所在的目录比如htdocs下的git文件夹不过不准确版本库工作区下面有一个隐藏的目录.git 这个就是我们的版本库 Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区,还有Git为我们自动创建的第一个分支master,以及指向master的一个指针叫HEAD 前面讲了我们把文件往Git版本库里添加的时候,是分两步执行的: 第一步是用gi

git stash 暂存当前修改

当我们在开发项目的时候,突然来一个变更需要修改,我们除了将当前项目提交(commit)后切换(checkout) 到其他分支外,我们还可以先将当前的修改暂存(stash)起来,然后再切换(checkout)到其他分支,而不需要提交(commit),这样就可以减少一个 commit (虽然可以使用 git commit --amend 来修改最后一次提交 ). 暂存修改有两种情况: 1.文件已经被 git 跟踪,只是修改了代码(而不是新条件文件),我们可以使用 git stash 或 git st

sed模式空间和暂存空间的区别

学了sed,觉得模式空间和暂存空间比较乱整理一下 sed编辑器逐行处理文件,并将输出结果打印到屏幕上.sed命令将当前处理的行读入模式空间(pattern space)进行处理,sed在该行上执行完所有命令后就将处理好的行打印到屏幕上(除非之前的命令删除了该行),sed处理完一行就将其从模式空间中删除,然后将下一行读入模式空间,进行处理.显示.处理完文件的最后一行,sed便结束运行.sed在临时缓冲区(模式空间)对文件进行处理,所以不会修改原文件,除非显示指明-i选项. 与模式空间和暂存空间

Git权威指南学习笔记（二）Git暂存区

如下图所示: 左侧为工作区,是我们的工作目录. 右侧为版本库,其中: index标记的是暂存区(stage),所处目录为.git/index,记录了文件的状态和变更信息. master标记的是master分支所代表的目录树.HEAD指向master分支. objects标记的是Git的对象库,所处目录为.git/objects,文件索引建立了文件和对象库中对象实体之间的映射关系. 通过该图我们可以清晰地看出add,commit等命令的转化关系.下面通过git diff和git status两条命

猜你喜欢

实现元素垂直居中的方法

如题,如何垂直居中一个元素,这里分为两种情况:要居中的元素已知大小.要居中的元素width, height未知. 1.要居中的元素已知大小示例代码: <!DOCTYPE html>< ...

centos svnversion安装部署

第一步: yum install subversion; 第二步: svnadmin create /data/cluster/sa/vc 第三步: mkdir /data/cluster/sa/ ...

文本的输入输出(page52)

2.2.4 再谈输入输出, 所用java类有:Out.java , In.java public class Cat{ public static void main(String[] args){ ...

JAVA GUI

JAVA GUI中的事件处理: 委托事件模型:事件源对象和监听器对象具有绑定关系一个监听器可以绑定多个事件源一个事件源也可以绑定多个监听器监听器有各自监听的事件类型设置容器的布局管理器为空白布 ...

php 读取文件

<?php /** *@param string $ip *@return string ip对应的地区 */ function getLocation($ip) { $ip_file_path ...

HBase之BloomFilter

HBase的Get/Scan操作流程 hbase中有BloomFilter的功能,可以在有些情况下过滤掉不需要的hfile,节省IO. BloomFilter作用 BloomFilter在HBase中 ...

php中strlen,mb_strlen,count之区别

转自 http://www.cnblogs.com/mo-beifeng/archive/2011/08/09/2133039.html 这不是一个固定的数字.本文简要说明一下限制规则. strlen ...

异常以及异常处理框架探析

概述一般情况下,企业级应用都对应着复杂的业务逻辑,为了保证系统的健壮,必然需要面对各种系统业务异常和运行时异常. 不好的异常处理方式容易造成应用程序逻辑混乱,脆弱而难于管理.应用程序中充斥着零散的异 ...

基于HTML5的捕鱼达人游戏网页版

之前给大家分享了html5实现的水果忍者,愤怒的小鸟,中国象棋游戏.今天给大家分享一款捕鱼达人(fishjoy)网页版游戏的源码.可以在线玩也可以下载到本地.它使用html5技术和javascript ...

如何利用cURL和python对服务端和web端进行接口测试

工具描述 cURL是利用URL语法在命令行方式下工作的文件传输工具,是开源爱好者编写维护的免费工具,支持包括Windows.Linux.Mac等数十个操作系统,最新版本为7.27.0,但是我推荐大家使 ...

三个页面的相关数据库语句

客户信息:select khbh as 客户编号,khxm as 客户姓名 ,(select shouji from lianxifangshi where bianma=a.khbh) as 联系电 ...

ie9的placeholder不显示的解决办法（包含多个密码框）

// 兼容ie9的placeholderfunction isPlaceholder(){ var input = document.createElement('input'); return 'p ...

Android 事件传递与焦点处理(tv)

1.概述上节介绍了android tv app 与android mobile app 的一些表现形式的不同.在实际编程中需要很多的焦点处理,而焦点处理有经常是在事件传递函数内处理的.所以本节做个a ...

PostgreSql+PostGIS和uDig的安装

1.前言总体来说,这两款开源软件均是很好安装的,一般按照提示一步一步点击next等,就可以装好.当然,也有需要注意的地方.下面我大致介绍下两款软件的安装流程. 2.PostgreSql+PostGI ...

<audio controls> <source src="horse.ogg" type="audio/ogg"> <s ...

!important css样式

重要性我们在做网页代码的时,有些特殊的情况需要为某些样式设置具有最高权值,怎么办?这时候我们可以使用!important来解决. 如下代码: p{color:red!important;} p{co ...

presto0.176概述

presto是什么是Facebook开源的,完全基于内存的并?计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执? ...

函数部分相关练习题及解答

1.写函数,计算传入字符串中[数字].[字母].[空格] 以及 [其他]的个数分析:需要计算[数字]等的个数,需首先判断该元素是不是数字或字母,需要调用元素属性判断,例子如下: 1 str1=&qu ...

Linux-（C）文件读写实例（系统调用/标准I/O库）

文件在Linux中是一个非常重要的概念,几乎一切都是文件(引用Linux程序设计/Beginning Linux ProGramming,那么这次主要学习文件读写. 1.系统调用跟库函数调用区别从实 ...

xmpp 配置数据库服务器

一.了解XMPP 协议(标准) XMPP 即时通讯协议 SGIP 短信网关协议这手机发短信移动支付和网页支付 0x23232[0,1] 0x23232 0x23232 0x23232 只有协议,必 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.