INFORMATICA 的调优之一 源数据的优化

5W1H法来实现源数据的优化

做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。

5W : WHO ,WHAT,WHY,WHEN,WHERE

WHO:(谁来对源数据负责)

ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。

WHAT:(源数据的业务含义)

源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。

WHY:(为什么要抽取这个数据到DW)

WHEN: (数据的生命周期多久,多久需要更新,有无抽取时间限制)

WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的 FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)

HOW: (如何抽到DW) 这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。

时间: 2024-07-31 19:31:53

INFORMATICA 的调优之一 源数据的优化的相关文章

Tomcat 调优及 JVM 参数优化

Tomcat 本身与 JVM 优化 Tomcat:调整Server.xml JVM:bat启动服务方式的话修改catalina.bat 服务式启动的话参考:http://www.cnblogs.com/qlqwjy/p/8007490.html Tomcat 的缺省配置是不能稳定长期运行的,也就是不适合生产环境,它会死机,让你不断重新启动,甚至在午夜时分唤醒你.对于操作系统优化来说,是尽可能的增大可使 用的内存容量.提高CPU 的频率,保证文件系统的读写速率等.经过压力测试验证,在并发连接很多的

Tomcat7调优及JVM性能优化for Linux环境

   该优化针对Linux X86_X64环境 Tomcat的三种模式及并发优化 Tomcat的运行模式有3种 1. bio 默认的模式,性能非常低下,没有经过任何优化处理和支持. 2. nio 利用java的异步io护理技术,noblocking IO技术 想运行在该模式下,直接修改server.xml里的Connector节点,修改protocol为 <Connector port="80″ protocol="org.apache.coyote.http11.Http11N

性能调优篇 - TPS低 - 优化SQL语句(一)

在执行性能测试的时候,问题总千奇百怪的.我这里整理了一些常用的性能测试时查看问题的方法. 一.SQL语句没有引用索引: 执行性能测试时,服务器的运行情况下: 数据库.应用程序CPU不超过80%: 内存足够(空余内存>20M); 网络正常: 磁盘输入/输出正常: 日志没有打印错误,但是TPS很低,如只有100-120(单个接口请求的性能测试,TPS一般会在550-60000这样,除非程序很复杂,那么TPS会小一些).这种情况下应该先查看SQL的语句是不是存在问题: 如: 查询语句,是否有索引,索引

LAMP 系统性能调优:第2 部分: 优化Apache 和PHP-学习笔记

二 配置MPM  Apache 是模块化的,因为可以轻松添加和移除特性.在Apache 的核心,多处理模块(Multi-Processing Module,MPM )提供了这种模块化功能性-- 管理网络连接.调度请求.MPM 使您能够使用线程,甚至能够将Apache 迁移到另外一个操作系统. 每次只能有一个MPM 是活动的,必须使用 --with-mpm=(worker|prefork|event) 静态编译. 每个请求使用一个进程的传统模型称为 prefork .较新的线程化模型称为  wor

Java程序性能优化——性能调优层次

为了提升系统性能,开发人员可以从系统的各个角度和层次对系统进行优化.除了最常见的代码优化外,在软件架构上.JVM虚拟机层.数据库以及操作系统层都可以通过各种手段进行调优,从而在整体上提升系统的性能. 设计调优 设计调优处于所有调优手段的上层,它往往需要在软件开发之前进行.在软件开发之初,软件架构师就应该评估系统可能存在的各种潜在的问题,并给出合理的设计方案.由于软件设计和架构对软件整体有决定性的影响,所以,设计调优对系统性能的影响也是最大的.如果说,代码优化.JVM优化都是对系统微观层面上"量&

性能调优概述,你不能不知的优化策略

作者:陈明乾 感谢: MageEdu 大纲 作者概述 什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么人来进行性能调优?(who) 怎么样进行性能调优?(How) 总结 硬件配置:CUP Xeon E5620 x 2 8核心, 内存 16G , 硬盘 RAID 10,操作系统: CentOS 6.4 x86_64(64位). 概述 在这篇博文中,我不想用一些抽象的概念去说性能调优的问题,只想用最通俗的语言

Tomcat调优总结(Tomcat自身优化、Linux内核优化、JVM优化)

Tomcat自身的调优是针对conf/server.xml中的几个参数的调优设置.首先是对这几个参数的含义要有深刻而清楚的理解.以tomcat8.5为例,讲解参数. 同时也得认识到一点,tomcat调优也受制于linux内核.linux内核对tcp连接也有几个参数可以调优. 因此我们可以将tomcat调优分为linux内核优化.java虚拟机调优和tomcat自身的优化. 一.Tomcat自身优化 1. maxThreads :tomcat创建的最大线程数,也就是同时处理的请求最大并发数.默认值

Mysql性能调优

1. 宏观上调优可以考虑三个部分,分别为硬件.网络.软件,此处主要考虑软件调优 (1)软件调优包括:表设计(范式.字段类型.数据存储引擎).SQL语句语索引.配置文件参数.文件系统.操作系统.MYSQL版本.体系架构 2. 表设计 (1) 第一范式(1NF):数据库表中的字段都是单一属性的,不可再分.这个单一属性由基本数据类型构成,包括整型.字符型.逻辑型.日期型等.(只要是关系型数据库都符合第一范式) (2) 第二范式(2NF):要求实体的属性完全依赖于主关键字,即只能有一个主关键字.也即非关

性能调优概述

大纲: 一.概述 二.什么是性能调优?(what) 三.为什么需要性能调优?(why) 四.什么时候需要性能调优?(when) 五.什么地方需要性能调优?(where) 六.什么人来进行性能调优?(who) 七.怎么样进行性能调优?(How) 八.总结 注,硬件配置:CUP Xeon E5620 x 2 8核心, 内存 16G , 硬盘 RAID 10,操作系统: CentOS 6.4 x86_64(64位). 一.概述 本来呢,这篇博文上个星期就应该写好了,但最近项目比较紧,晚上老是加班,于是