OLAP --ODS项目的总结 --起步阶段

刚开始起步阶段,很多人都认为是DW选型,ETL工具选型或者构架等问题,这些其实都是 技巧上的问题,真正从项目上,业务上的观点来看,有点狭隘。

一个网友的观点给我启发很多,就是使用5W1H的工程方法,先把事情想明白。

 

  5W : WHO ,WHAT,WHY,WHEN,WHERE

WHO:(谁来对源数据负责)

   业务数据源的维护人员,是重重之重,甚至是建设好DW的基石,这个项目比较小,我就是源数据的维护人员。其实我是中途出道,表不是我设计的,真正需要同源数据人员沟通的需要如下几点

1. 表结构符合的数据库范式,源数据表的规模,业务来源。在面对大数据量下已经做的优化(分库,分表,分区等)。当前数据库的布局和架构

2.   ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。

3.表的业务来源,和其中曾经发生的瓶颈。这个很重要,这个对运行后的优化很重要。一般OLTP的瓶颈,也是在做ETL抽取时的瓶颈。

WHAT:(源数据的业务含义)

源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。如果还没有进入设计阶段,可先将业务的源数据,分一下类,理清

一些源数据在业务层面上的关联关系。为今后的 ODS建模,分主题域有很大的帮助。

WHY:(为什么要抽取这个数据到DW)

这个是我们在做ETL MAPING ,报表时 直接决定的,前端BI系统 的需要那些数据做分析,做统计 出报表等等问题,就这个过程中逐渐清晰起来的。

WHEN:(数据的生命周期多久,多久需要更新,有无抽取时间限制)

也可以理解为数据的抽取时间窗。这个问题可大,可小。 说小基本上就是 在做ETL SCHEDULE 时间窗。 说大基本上决定了ODS 的类型。

ODS分为四类,1类 是实时ODS ,延迟的时间在秒级。 2类 是小时级的ODS,3类是天级别的,4类主要做 数据挖掘,数据统计使用的。

WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)

特别是数据构架负责时,建议将此列一个表。

HOW: (如何抽到DW)这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。

转:http://www.cnblogs.com/jerryxing/archive/2012/12/07/2806865.html

时间: 2024-12-20 07:50:33

OLAP --ODS项目的总结 --起步阶段的相关文章

OLAP -- ODS 项目总结 -- BI 中的关键

这个项目在年前已经完成,回顾起来小问题挺多.有点乱.还是从需求说起. 一.单纯讲需求每个行业的都不同.很难划一而论.总体来说也就是这几个方面 1.时间窗 常见的分类也就1类ODS ,II类ODS ,III类ODS I类ODS:与应用系统的数据延迟为1~2秒,实时或近似实时 II 类ODS:与应用系统的数据延迟为2~4小时 III类ODS:与应用系统的数据延迟为12~24小时 IV类ODS:数据仓库中部分决策分析数据回流至ODS中 数据实时性越高,越好CPU ,软件成本越高.在 选型时也不同, 如

OLAP --ODS 项目总结 -- 说说缓慢变化维

如果不是OLAP 系统或者BI系统,我们在生产环境下常遇到这样的问题 需要同步两个表.比如交通驾驶人,每个月需要同步. 表O_DRIVER_SOURCE 是来自第三方的源表,O_DRIVER_TARGET是本系统需要使用的目标表.现在需要同步这两个表很容易想到的 解决方案是 1.使用存储过程,有点复杂 2. merge into 语句 Merge into target O_DRIVER_TARGET Using O_DRIVER_SOURCE On ( O_DRIVER_SOURCE.driv

OLAP -- ODS 项目总结 -- ETL中的流程

ODS-BI 建设中ETL要占用1/3 的时间,深有感触.BI的建模,从物理数据层,逻辑数据层,业务逻辑层各个层次,都有很多自动化的工具可以处理. 但是ETL 中的流程确要根据性能来设计的.总结下这几个部分.  1.数据源/数据目标管理 确定数据源的表,文件,或者RESTFUL的URL,ODBC,值得注意的是,在数据源时,同时关联号外主键关系,对ETL数据有效性帮助很大. 目标数据,可能不同的主题使用了不同的数据库,各个数据库的地址,ODBC,JDBC等信息. 目标数据大部分情况下不需要建索引,

OLAP -- ODS 项目总结 -- 脚本自动化

其实,同其他后台项目一样的问题,就是最后是个交钥匙工程,一个BAT,或者SHELL 到最后什么都完成,日志,结构,数据都明确,不需要额外的配置,最后需要达到这个目的. 这个主要分为三个部分 1.ORACLE 数据 模型建立 >1.  入口脚本 INSTALL_ODS.BAT ,其中需要调用一下的组件. >2. 创建 数据库表空间,数据库用户. >3. 对数据库用户进行授权. >4. 模型 导入,建立表结构, >5. 导入 事先声明的维数据. 2. 使用脚本 创建ETL需要的存

OLAP --ODS项目的总结 -- 平台选型,架构确定

说一下,目前我们基础数据平台的机构. OLTP: OLTP 主要使用ORACLE 平台,集群环境使用的是RAC.在前端做数据采集的还有SQLSERVER,但是目前初步不会从其中取数据. 中间件:主要使用的是 ORACLE FUSION ,也就是 WEBLOGIC, 在这个层次,主要考虑的是 平台的EM管理的需要. 比如ETL 平台的的管理是    支持哪些, DSS平台的管理是支持哪些. BI:     BI 使用的平台是OBIEE ,主要原因是考虑到 移动BI的扩展,和我们部门 ORACLE

ODS项目——mongoDB导入脚本

mongoDB导入脚本 #! /bin/sh echo "${0} import data to mongodb" tagFile="/srv/mss_data/dim_customerex_mobile_stat_`date +%Y%m%d -d "-1 day"`.log" impDataFile="/srv/mss_data/dim_customerex_mobile_stat_`date +%Y%m%d -d "-1

ODS项目——mongoDB使用文档

1.启动mongodb:#cd /srv/infra/mongodb/mongodb2.6.4/bin# ./mongod --dbpath=/mongodbdata/mongodb_db --port 27018  --logpath=/mongodbdata/mongodb_logs/mongodb.log --logappend& 2.关闭mongodb:[[email protected] mongodb]# mongoMongoDB shell version: 2.6.4connec

看来人工智能不可阻挡,将和网络与计算机一样服务于各行各业!

yxr注: 先不管真假,看来人工智能不可阻挡,将和网络与计算机一样服务于各行各业! 任正非首次系统阐述华为人工智能战略 称目标不在干翻苹果 http://tech.sina.com.cn/it/2016-09-26/doc-ifxwevmc5511899.shtml 新浪科技讯 9月26日上午消息,华为创始人任正非近日在华为诺亚方舟实验室座谈会上做了一次内部演讲,在演讲中首次系统谈到了华为在人工智能领域的战略. 诺亚方舟实验室是华为旗下专注于人工智能和大数据挖掘的研究机构,8月10日,任正非专门

在Windows中实现OSI四层负载均衡系统(支持IPv6)

本项目的源代码存放在GitHub中(https://github.com/LCXL/lcxl-net-loader),任何人都可以自由的下载和使用,遵循的协议为Apache  License 2.0.目前项目还处于起步阶段,且为个人兴趣,因为工作需要,只能在业余时间更新项目和博客,如果有哪位同仁对此项目感兴趣,欢迎提供意见和建议. 本项目支持IPv4和IPv6协议的四层负载均衡,关于IPv4协议的四层负载均衡的资料非常多,这里就不多做介绍了,本文主要介绍在IPv6协议下如何实现运行于Window