informatica介绍

一、总体概述

ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。

其中ETL培训的内容是如何利用Informatic PowerCenter把源数据库的内容提取存放到目标数据库中。主要

Informatic主要包括四个部分:Client,Reposity Server,Reposity Database和Informatic Server 每个部分实现自己的功能。

二、系统体系结构

此部分介绍了Informatic ETL工具包括的主要内容。

1.            Client

Informatic Client主要有五个部分。Client可以和Reposity分离,通过TCP/IP连接,连接到远程的Reposity Server。

²        Reposity Manager

主要用于进行一个Reposity库的管理,当用户使用Client工具登录一个Reposity服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。

²        Designer

主要是进行数据抽取的转换工具的设计,主要是mapping的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作(Transformation)。

同一个Reposity的folder之间可以建立shortcut方式,多个reposity的folder之间只能做拷贝。

²        Workflow Manager

主要用于流程任务(workflow  Task)的设计。

进行任务流程的设计、每一个Tast针对一个Session,一个session针对一个mapping,其中workflow中的Folder和Designer中的folder相对应的关系。一版来说,用户都是建立自己的Folder。

²        Workflow Monitor

主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括Session日志和Workflow日志,可以设置生成日志的循环个数。分析session运行是对源数据库的数据抽出信息和对目标数据库的更新信息。

²      Reposity Server Application Console

主要进行Reposity的管理,包括Reposity Server的start,shutdown操作。

进行Reposity 库的backup、restore等操作,进行Reposity库级别的管理,级别较高。

2.              Reposity Server

Reposity server是为客户端服务的,客户端可以和各种client不在一台服务器上。关于数据抽取的设计成果转换成为XML格式的源数据,都是通过Reposity Server存放到Reposity Database  Server上的。

3.              Reposity Database Server

用于存放的是进行ETL设计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。

Reposity Database可以和Reposity server不安装在一台服务器。如果在一台机器上,server通过native方式连接到database,如果不在一台及其上,需要在database上安装一个reposity agent,用户通过agent,以native方式连接到reposity数据库,然后reposity agent再以tcp/ip方式连接到reposity server。

4.            Informatic Server

Informatic server 是实际执行数据抽取任务的运行环境。即workflows、task、sessions等。它是根据定义的workflow元数据库,然后在自己的实际环境中,执行数据抽取操作。

三、系统组件功能

Informatic的功能主要体现在Designer 和Workflow Manager上,其中Designer实现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在Workflow Manager中再把具体的数据转换方式应用到一个具体的工作任务中,包括目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的insert、truncate、delete、increment insert等。

1.  Designer

²       工作区

在Designer中,涉及到的工作区主要包括有Source Analyzer、Warehouse Designer、Transformation Designer、Mapplet Designer和Mapping Designer。

其中每个工作区的功能分别介绍:

Source Analyzer:

Source Analyzer的功能是实现对源数据库表的设计,可以手工的进行源数据库的设计,一般都是通过从Flat File或者Relation DBMS中导入数据库的表结构。XLS文件结构。

Warehouse Designer

用于设计目标数据库库的结构,可以利用手工设计,也可以利用import工具导入导一个warehouse的结构。

Transformation Designer

用户设计可重用的transformation组件,这里的组件,在一个folder里面都是可以重用的,而且以shortcut的方式使用。Transformation组件的修改,会直接反映到使用此transformation的mapping中。

Mpplet

设计可以重用的多个组件,只要有output组件,可以有input组件,也可以没有input组件,实现的功能就和一个expression的功能类似,实现功能。

Mapping Designer

实现的功能是设计具体进行抽取数据的mapping,这些mapping应用到一个workflow中,形成了workflow的一个session(task)。

²       组件功能

ETL支持的组件主要包括两类:Active组件和Passive组件,其中Active组件是对输入记录集在输出时个数有变化的组件,Passive组件,输入的记录集,输出时记录集的个数不发生改变。

Informatic提供的组件包括:

(1)     Source Qualifier: reads data from flat file & relational sources

(2)     Expression: performs row-level calculations

(3)     Filter: drops rows conditionally

(4)     Sorter: sorts data

(5)     Aggregator: performs aggregate calculations

(6)     Joiner:  joins heterogeneous sources

(7)     Lookup:  looks up values and passes them to other objects

(8)     Update Strategy:  tags rows for insert, update, delete, reject

(9)     Router: splits rows conditionally

(10) Sequence Generator:  generates unique ID values

(11) Normalizer: normalizes records from relational or VSAM sources

(12) Rank: filters the top or bottom range of records

(13) Union: merges data from multiple pipelines into one pipeline

(14) Transaction Control: allows user-defined commits

(15) Stored Procedure: calls a database stored procedure

(16) External Procedure :  calls compiled code for each row

(17) Custom: calls compiled code for multiple rows

(18) Midstream XML Parser: reads XML from database table or message queue

(19) Midstream XML Generator: writes XML to database table or message queue

每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。

2.  Workflow

Workflow是对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。

可以在执行的时候选择参数文件,对mapping、workflow中的Session的参数进行传入。达到动态执行的目的。

Workflow中定义workflow、session等任务,对这些任务的执行进行管理控制。

四、补充说明

(1)      Source Qualifier支持同构数据源的连接,衣钩数据源的连接通过N-1个jointer组件实现。

(2)      Lookup为passive组件,查出的多条记录集,要么取first,或者last,或者报错。

(3)      Lookup可以时动态/静态 ,可以connected/unconnect

informatica介绍

时间: 2024-10-14 10:55:46

informatica介绍的相关文章

Informatica_(3)组件

一.Informatica介绍Informatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具.Informatica PowerCenter使用户能够方便地从异构的已有系统和数据源中抽取数据,用来建立.部署.管理企业的数据仓库,从而帮助企业做出快速.正确的决策.此产品为满足企业级要求而设计,可以提供企业部门的数据和电子商务数据源之间的集成,如XML,网站日志,关系型数据,主机和遗留系统等数据源.此平台性能可以满足企业分析最严格

Informatica ETL workflow 定时运行功能介绍

Informatica ETL自带有定时调度器,可以用来按需定时调用workflow或者其他任务.这里我们介绍下调度器内的一些功能选项. 首先,调度器的选项在哪里?按照以下步骤就可以找到: 登录workflow manager 打开文件夹 创建一个workflow 或者 打开一个已有的workflow 找到顶部的工具栏,点击workflow--->edit,会打开一个窗口. 点击调度器选项卡. 点击下图中红色圈位置,就可以打开调度器设置.如下图 原文地址:https://www.cnblogs.

informatica 部分组件介绍

①表达式组件(Expression) 作用:里面有很多函数,可以设置参数,用于计算值. ②筛选组件(filter) 作用:根据条件过滤不符合条件的行(过滤条件就是返回真或假的表达式,真就进入下一个组件,假就过滤) ③汇总器转换组件(aggregator) 作用:汇总计算(求平均值avg,求和sum,最大值max,最小值min,统计count) ④查找转换组件(lookup)是常用的组件 作用:获取一个想关联的值,查找值,(可查找另一张表相同的值,返回指定的值) 点开查找组件会出现下面框框,这是找

Informatica元数据库解析

Informatica全部的元数据信息均以数据库表的方式存到了元数据库中.当然Infa本身工具提供了非常多的人性化的功能.使我们在开发时能够非常方便的进行操作.但人们的需求总是万变的.须要方便的取到自己须要的信息,那就须要我们对他的元数据库有非常深的了解. Informatica通过表和视图给我们提供着全部的信息,在此将通过一个系列的帖子.将大部分常见的,且很实用的表及视图介绍一下.基于这些东西.我们即能够依据不同的需求查出自己须要的数据,也能够开发一些辅助的Infa应用程序. OPB_ATTR

Informatica 一

Install & Concept 1.1             Powercenter 的安装,架构,组件及其主要功能: 1.       安装Powercenter 7.12,8.11客户端,知识库服务器及Informatica服务器件: 需要指定注册码;在本机上建立供测试用的的Informatica Server: 2.       7.12的Windows的一台机器上只能装一个这样的Server,建立时需要指定关联的库:除了需要指定注册码外,还需要指定数据库连接许可码: 知识库服务器没

Informatica学习:2、配置存储库服务和集成服务

继续上一篇的1.安装介质的获取与安装,本文介绍服务端的存储库服务和集成服务的配置. 安装好Informatica的客户端和服务端后,需要登陆Administration Console,配置存储库服务(Powercenter Repository Service)和集成服务(Powercenter Integration Service),参考步骤如下: 1.创建存储库服务 (1)登陆Administration Console管理平台 打开网址:https://localhost:8443/a

informatica元数据详解

(一)Informatica所有的元数据信息均以数据库表的方式存到了元数据库中.当然Infa本身工具提供了很多的人性化的功能,使我们在开发时可以很方便的进行操作,但人们的需求总是万变的,需要方便的取到自己需要的信息,那就需要我们对他的元数据库有很深的了解.Informatica通过表和视图给我们提供着所有的信息,在此将通过一个系列的帖子,将大部分常见的,且非常有用的表及视图介绍一下.基于这些东西,我们即可以根据不同的需求查出自己需要的数据,也可以开发一些辅助的Infa应用程序./////////

Informatica学习:安装介质的获取与安装

阅读目录 一.准备 1.安装介质的获取 2.数据库端准备 (1)创建存放info相关信息的表空间 (2)创建域用户并分配权限,用来管理域 (3)创建资源库用户并赋权 (4)创建数据分析用户并赋权 (5)创建元数据用户并赋权 二.服务器端安装 三.客户端安装 三.组件介绍 本文目标: 为方便学习Informatica工具,在个人电脑上部署Informatica Powercenter. 所用系统:win7 64位. Informatica安装包括服务器端.客户端安装两个部分,因为服务器端安装.使用

选型宝分享Informatica中国数据管理5大经典案例

写在前面 我们请来了Informatica大中国区的首席架构师但彬先生,和大家聊一聊数据和数据管理的话题. 李维良(主持人) 在数据管理这个大概念下,有哪些细分领域?在每个细分领域中,Informatica又布局了哪些产品? 但彬 我们常说IT(Information Technology信息技术),其中一半是I,也就是信息,尤其在今天,数据和信息变得越来越重要.从数据库(Database)到数据仓库(Data Warehouse)和数据挖掘,再到今天的大数据(Big Data)和数据治理,数据