OLAP -- ODS 项目总结 -- BI 中的关键

这个项目在年前已经完成,回顾起来小问题挺多。有点乱。还是从需求说起。

一.单纯讲需求每个行业的都不同。很难划一而论。总体来说也就是这几个方面

1.时间窗

常见的分类也就1类ODS ,II类ODS ,III类ODS

I类ODS:与应用系统的数据延迟为1~2秒,实时或近似实时

II 类ODS:与应用系统的数据延迟为2~4小时

III类ODS:与应用系统的数据延迟为12~24小时

IV类ODS:数据仓库中部分决策分析数据回流至ODS中

数据实时性越高,越好CPU ,软件成本越高。在 选型时也不同,

如果确定数据的实时性需要实时同步的话,就是I类ODS,通常需要EAI ,消息队列,消息通信的机制。稍微差点可以用某些数据库的高级功能比如ORACLE 从REDO LOG中抽取,目前支持厂商也不少,下下策就是 使用数据库触发器,工作量挺大的,都是些无聊的重复性代码,重用性也不高。

II类ODS  这种好像不多了,以前银行转账有几个小时后到账的业务。现在已经很少了,如果硬是建设此类估计 也采用性能更高的III类ODS 的建设。

III类ODS 这种很常见,常说说的ETL ,也就是批量的数据处理是此类必配的项目。厂商也很多,但是要从易用性,性能,同本地数据库的结合等方面来衡量。

我们采用这种构架。使用基本上也是大厂商的软件ORACLE,IBM等。

IV类ODS 一般是在ODS数据上,再汇总的数据。做数据分析的朋友,会同此类系统打交道,如SAS,SPSS,R等。

2.数据量级

任何数据只要量级上来了,都挺困难。我们做过测试数据量吞吐量 在G 级别的,使用传统的数据库还勉强可以搞定。要是超过这个量级,不管是在ETL,DATAANYLSE 都你不从心。

需要使用大数据的构架,也不是完全的使用大数据,而是大数据+传统数据库结合的方案。目前我们正在测试这一方案。其中很多构架都要变,更要命的是ETL变得更复杂了,传统的ETL工具很多都没有跟上。

如果数据量再大要到PB级别,之前的所有的构架都要推倒重来,使用纯粹的大数据构架,这不是一般的公司可以做到的。暂且不谈这个。

3.数据属性确认

这个占用了我们在ODS建模(同BI建模类似)的大量工作,

维数据和事实表数据(日志数据),是我们在业务上没有偏离的重要保证。

数据来源(JMS,DATABASE,File,EAI ) 其中涉及到处理的不同的技术。

数据处理(统计,非统计) :是影响ETL性能的关键。

转:http://www.cnblogs.com/jerryxing/archive/2013/02/20/2918130.html

时间: 2024-10-08 07:08:28

OLAP -- ODS 项目总结 -- BI 中的关键的相关文章

OLAP -- ODS 项目总结 -- ETL中的流程

ODS-BI 建设中ETL要占用1/3 的时间,深有感触.BI的建模,从物理数据层,逻辑数据层,业务逻辑层各个层次,都有很多自动化的工具可以处理. 但是ETL 中的流程确要根据性能来设计的.总结下这几个部分.  1.数据源/数据目标管理 确定数据源的表,文件,或者RESTFUL的URL,ODBC,值得注意的是,在数据源时,同时关联号外主键关系,对ETL数据有效性帮助很大. 目标数据,可能不同的主题使用了不同的数据库,各个数据库的地址,ODBC,JDBC等信息. 目标数据大部分情况下不需要建索引,

OLAP --ODS项目的总结 --起步阶段

刚开始起步阶段,很多人都认为是DW选型,ETL工具选型或者构架等问题,这些其实都是 技巧上的问题,真正从项目上,业务上的观点来看,有点狭隘. 一个网友的观点给我启发很多,就是使用5W1H的工程方法,先把事情想明白. 5W : WHO ,WHAT,WHY,WHEN,WHERE WHO:(谁来对源数据负责)   业务数据源的维护人员,是重重之重,甚至是建设好DW的基石,这个项目比较小,我就是源数据的维护人员.其实我是中途出道,表不是我设计的,真正需要同源数据人员沟通的需要如下几点 1. 表结构符合的

OLAP --ODS 项目总结 -- 说说缓慢变化维

如果不是OLAP 系统或者BI系统,我们在生产环境下常遇到这样的问题 需要同步两个表.比如交通驾驶人,每个月需要同步. 表O_DRIVER_SOURCE 是来自第三方的源表,O_DRIVER_TARGET是本系统需要使用的目标表.现在需要同步这两个表很容易想到的 解决方案是 1.使用存储过程,有点复杂 2. merge into 语句 Merge into target O_DRIVER_TARGET Using O_DRIVER_SOURCE On ( O_DRIVER_SOURCE.driv

OLAP -- ODS 项目总结 -- 脚本自动化

其实,同其他后台项目一样的问题,就是最后是个交钥匙工程,一个BAT,或者SHELL 到最后什么都完成,日志,结构,数据都明确,不需要额外的配置,最后需要达到这个目的. 这个主要分为三个部分 1.ORACLE 数据 模型建立 >1.  入口脚本 INSTALL_ODS.BAT ,其中需要调用一下的组件. >2. 创建 数据库表空间,数据库用户. >3. 对数据库用户进行授权. >4. 模型 导入,建立表结构, >5. 导入 事先声明的维数据. 2. 使用脚本 创建ETL需要的存

OLAP --ODS项目的总结 -- 平台选型,架构确定

说一下,目前我们基础数据平台的机构. OLTP: OLTP 主要使用ORACLE 平台,集群环境使用的是RAC.在前端做数据采集的还有SQLSERVER,但是目前初步不会从其中取数据. 中间件:主要使用的是 ORACLE FUSION ,也就是 WEBLOGIC, 在这个层次,主要考虑的是 平台的EM管理的需要. 比如ETL 平台的的管理是    支持哪些, DSS平台的管理是支持哪些. BI:     BI 使用的平台是OBIEE ,主要原因是考虑到 移动BI的扩展,和我们部门 ORACLE

DB、ETL、DW、OLAP、DM、BI关系结构图

DB.ETL.DW.OLAP.DM.BI关系结构图 在此大概用口水话简单叙述一下他们几个概念: (1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统.DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你的眼前,这个眼前就是db. (2)DW/Data Warehouse/数据仓库——这里保存的是DB中的不同时间点的状态,比如,每天早上洗完照镜子时,

MyEclipse如何安装egi插件及如何将github项目引入MyEclipse中

一.如何查看MyEclipse版本及Eclipse版本号 查看MyEclipse版本号:MyEclipse主界面的菜单栏的最左边"help"->选择"About MyEclipse Enterprise Workbench"选项,如下图所示: 查看Eclipse版本号:在MyEclipse的安装目录下,打开.eclipseproduct文件,如下图所示: 表明Eclipse的版本号为3.8 二. MyEclipse安装egit插件 接下来,我们需要在MyEcl

第八周项目 二 【项目2-Time类中的运算符重载】

[项目2-Time类中的运算符重载] 实现Time类中的运算符重载. [cpp] view plaincopyprint? class CTime { private: unsigned short int hour;    // 时 unsigned short int minute;  // 分 unsigned short int second;  // 秒 public: CTime(int h=0,int m=0,int s=0); void setTime(int h,int m,i

房产众筹项目质疑声中再推出

房产众筹项目质疑声中再推出 业内热评京华时报[微博]2014-11-15 10:35 我要分享 48 [摘要]京东金融联手远洋地产再次推出新一波的房产众筹.该房产众筹的模式引起了外界的质疑. 京华时报讯(记者祝剑禾)继双十一推出房产众筹项目之后,昨天京东金融联手远洋地产(远洋万和公馆 远洋一方)再次推出新一波的房产众筹.该房产众筹的模式引起了外界的质疑. 据介绍,即日起京东金融联手远洋地产在北京.天津.上海.杭州等全国12个城市推出房产众筹项目,消费者可以登录京东金融的众筹页面进行两种方式的认筹