DataStage

parallel job

shell调用:dsjob

./dsjob -run -mode NORMAL -paramfile xxx.param <PROJECT> <JOB>

ETL Job开发流程

1. 用 DataStage Administrator 新建一个项目;

2. 用 DataStage Designer 连接到这个新建的项目上进行ETL Job的设计;

3. 用 DataStage Director 对设计好的ETL Job设置运行的模式,比如多长时间运行一次ETL Job;

4.用 DataStage Manager 进行ETL Job的备份等。

时间: 2024-10-23 04:03:17

DataStage的相关文章

【转载】DataStage(ETL)技术总结

数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,  Load).    IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取.转换和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具.    通常数据抽取工作分抽取.清洗.转换.装载几个步骤:   

ETL 工具下载全集 包括 Informatica Datastage Cognos( 持续更新)

Datastage 8.0 BT种子下载:http://files.cnblogs.com/taven/Datastage_8.0.rar Informatica PowerCenter 8.6.0 for Win 32Bit BT种子下载:http://files.cnblogs.com/taven/Informatica_PowerCenter_8.6.0_for_Win_32Bit.rar Cognos BI 8.3 BT种子下载: http://files.cnblogs.com/tav

传统数据仓库的优化手段 (针对 Oracle+DataStage )

普通手段 分区,HASH-JOIN,数据仓库函数,物化视图,位图索引等等为大伙在数据仓库常用的技术, 而下面列举的tips为项目中常用的优化手段/技巧,绿色背景highlight起来的部分为非常规手段,使用场景较为极端,需谨慎考量. Oracle并行场景: SQL*Loader 的parallel参数 事务失败回滚的并行处理 FAST_START_PARALLEL_ROLLBACK参数 expdp设置parallelism参数,设置多个datapump文件 大批量处理+并行处理(parallel

datastage 分析日志获取表记录条数

DataStage通过分析日志获取Job插入目标表的记录数 这只是一种不太好的方法,也许还有更好.更简便的方法.这种方法要求每次运行Job之前删除已有的日志信息,否则无法统计出正确的记录数.当然,在Job跑完之后,可以在shell备份本次Job运行的日志到服务器磁盘. 1       日志清理设置 登录Datastage Administrator,选择对应项目,项目属性->记录,勾选"自动清除作业日志",设置为自动清理上次及以前的日志. Figure 1 Administrat

datastage 作业查找脚本

下面两个shell脚本是shell调用datastage作业时查找缺少作业和错误作业名的脚本 脚本一: [[email protected] findjob]# more errcfgjob.sh  #!/bin/bash ####################################################################### #purpose:find the error configuration job in the file dsjob_list2.

DataStage 六、安装和部署集群环境

DataStage序列文章 DataStage 一.安装 DataStage 二.InfoSphere Information Server进程的启动和停止 DataStage 三.配置ODBC DataStage 错误集(持续更新) DataStage 四和五因为包含大量图片发布不便,有兴趣学习和研究者请联系索要!!! 说明 以下的内容中使用主机dsconductor01(主导节点)和主机dscompute01(普通节点)实验安装DS集群,分别在主机dsconductor01(主导节点)中安装

DataStage 一、安装

安装的详细信息记录于文档中,文档下载地址:http://pan.baidu.com/s/1pJCF9uN 密码: y2ry ;文档内容目录如下: DataStage 一.介绍和安装.................................................................................................................................................21 文档说明........

Datastage JDBC Connector 中文乱码处理

在Datastage中,通常处理中文字符编码的时候是通过设置工程.JOB.stage三个级别的NLS 但JDBC Connector stage这个组件并没有NLS选项,而是通过 stage里面的"Properties"选项卡里面的 "Session"-->"Character set for non-Unicode columns" --> "Character set name *"进行设置 默认情况下&quo

DataStage 二、InfoSphere Information Server进程的启动和停止

DataStage序列文章 DataStage 一.安装 1 关于进程需要了解的基础知识 名称 说明 ASB代理进程 通信代理程序,它的作用是协助层与层之间的通信,默认端口是31531,它以后台进程的方式运行在引擎层和客户端层 ASB记录代理进程 它的作用是记录事件信息到元数据存储层的数据库中 DataStage Engine进程 它是核心进程,管理DataStage job任务.Cache.job资源 WebSphere Application Server(WAS) Web 应用服务器程序,