刚开始起步阶段,很多人都认为是DW选型,ETL工具选型或者构架等问题,这些其实都是 技巧上的问题,真正从项目上,业务上的观点来看,有点狭隘。
一个网友的观点给我启发很多,就是使用5W1H的工程方法,先把事情想明白。
5W : WHO ,WHAT,WHY,WHEN,WHERE
WHO:(谁来对源数据负责)
业务数据源的维护人员,是重重之重,甚至是建设好DW的基石,这个项目比较小,我就是源数据的维护人员。其实我是中途出道,表不是我设计的,真正需要同源数据人员沟通的需要如下几点
1. 表结构符合的数据库范式,源数据表的规模,业务来源。在面对大数据量下已经做的优化(分库,分表,分区等)。当前数据库的布局和架构
2. ETL抽取的数据各种各样,有些是按业务,有些是按区域,针对源数据的管理一定要在一开始就对源数据按规则分出对应的责任人,一般刚开始与业务负责人,DM确定好具体的数据项后,就可以按数据类别比如RMDB,FLATFILE等来确定具体的联系人,联系方式。
3.表的业务来源,和其中曾经发生的瓶颈。这个很重要,这个对运行后的优化很重要。一般OLTP的瓶颈,也是在做ETL抽取时的瓶颈。
WHAT:(源数据的业务含义)
源数据的具体业务含义由对应的业务负责人来确定,这点对DM的设计很重要。如果还没有进入设计阶段,可先将业务的源数据,分一下类,理清
一些源数据在业务层面上的关联关系。为今后的 ODS建模,分主题域有很大的帮助。
WHY:(为什么要抽取这个数据到DW)
这个是我们在做ETL MAPING ,报表时 直接决定的,前端BI系统 的需要那些数据做分析,做统计 出报表等等问题,就这个过程中逐渐清晰起来的。
WHEN:(数据的生命周期多久,多久需要更新,有无抽取时间限制)
也可以理解为数据的抽取时间窗。这个问题可大,可小。 说小基本上就是 在做ETL SCHEDULE 时间窗。 说大基本上决定了ODS 的类型。
ODS分为四类,1类 是实时ODS ,延迟的时间在秒级。 2类 是小时级的ODS,3类是天级别的,4类主要做 数据挖掘,数据统计使用的。
WHERE:(源数据放在什么地方来抽取,是RMDB还是指定路径下的FLATFILE,还是URL WEBSITE)一般为了保证源数据的抽取质量能先预处理到DB中的尽量先到DB中,这样的数据的处理信息会存到元数据知识库,便于确保数据质量。)
特别是数据构架负责时,建议将此列一个表。
HOW: (如何抽到DW)这里面主要考虑源数据存储的是否有序,如果前面5W做好了,这里面的源数据质量应该没问题,这一步主要考虑能否在缓冲区建立有效索引,对文件类型的源数据做基本清洗工作等。
转:http://www.cnblogs.com/jerryxing/archive/2012/12/07/2806865.html