搞数据仓库的内心活动-第一篇

第一,没有工作经验,这个代表着我不知道怎么去进行工作,但是这个问题的根本就是我不一定不知道怎么去做,我如果能够展示出来我能够做好这个工作,那么应该是可以的,首先这个ETL代表着对数据的处理,处理涉及到数据,数据存放在数据库中,数据库分为事务型和分析性两种方向,两个数据库中存放数据会有不同的方式与架构,事务型中的数据存放架构为实体关系型,而分析型中的数据架构为事实维度型。在对数据进行处理前还要进行一定的处理,使得数据源拥有一定的格式,至少能够符合传入的接口,是格式化后的数据。所以这个源库中的数据本身就是拥有一定数据质量的,但是还是需要进行ETL处理,因为就算源库中的数据是完全无误的,但是因为一个集团内部会有很多个事务型数据库,分别处理着不同部门的数据,所以会有信息孤岛的情形出现,将这些数据库中的信息整合起来也是建立数据仓库的一个重要目的,所以即使源库中的数据内容都是对的,但是可能不同的库中有着不一样的格式,所以对数据格式的把控也是ETL过程的一部分。还有就是事务型库中存的数据基本是实时的,在时间维度上是做不了分析的,所以在源库数据都对的情况下,依然要对这些数据进行处理,加上时间戳,这就引出了缓慢变化维这个东西,其实这个很容易理解,就是某类东西因为自身会随着时间发生变化,而我们又想知道这个变化的样子,就需要将这些变化全部记录下来,也就有了对相同/不同记录的插入、删除、更新这些操作,但是给这加上一个缓慢变化维的称呼就显得挺高深了。

现在我对为什么做ETL解释了一部分,就是在一定要做ETL的基础之上,说出了要做ETL的一些原因和考虑,但是呢为什么一定就要做ETL呢?ETL处理数据之后,将多个源库中的数据集成到了数据仓库中了,格式相同了,数据质量相对更高了(我还真不知道数据质量到底是由谁来定的,什么标准定的),但是这个的用处是进行分析,所以公司如果数据量不大,也就无所谓要不要集成了,比如只有一两个库,那还不如不搞数据仓库,弄这么多过程不是浪费时间嘛。还有就是如果公司就没有对数据的分析需求,那么也没必要搞数据仓库,因为数据仓库是为了提供一个分析结果给人看的,如果没有意义的数据,那么分析也没有什么用。所以只是在大量数据上会有用处。

然后现在我对各个ETL的开发工具和流程都不懂,比如Datastage、PowerCenter、Kettle以及手工plsql,这些都是听说而已,平常拿来练练手,没有接触过项目,但是为什么接触过了项目就一定会强于没有接触过项目的呢?讲得不好听的,做过一两次爱的人就比没有做过爱的人强了?要是经验这么有用的话,那年龄越大的人就越能办好事,越能做出东西来了?很显然这个是不对的,首先就是这个人要负责,然后不能蠢,学东西快就行,很多事就是只要用过一次就知道怎么用了,甚至可以达到能够灵活运用,不是这个东西难,而是这个东西里面承载了设计者的思想与逻辑,世界上是没有人能够在不接触别人的情况下就能了解别人的思想的,直接接触这个设计者,问他设计的思路是什么,那是最快的理解他所设计的产品的途径,正如现在的原厂帮助是最大最快的,但如果不能接触这个产品的设计者,那么就需要一些别的途径来了解设计者的思想,比如设计者自己写的书,做的视频,接触别的已经接触过设计者的人,也就相当于我不能接触原厂的人,因为我没有那么多钱去拿这个资源,所以我就通过看书看视频、参加培训班、上学、参加相对应的公司来找接触过这个产品的人来学习等途径获得对产品的了解,说实话,也就这些途径了,你说哪个快呢?肯定是人直接教人最快了,因为这个方式对人的影响是五官都能感受的,能听觉、视觉、触觉、味觉、嗅觉这些全部用上了,看视频就减少了味觉、嗅觉,看书就更少了一个听觉

时间: 2024-07-29 11:21:59

搞数据仓库的内心活动-第一篇的相关文章

【转帖】Mysql多维数据仓库指南 第一篇 第1章

 Mysql多维数据仓库指南 第一篇基本原理 章节列表: 第1章:基本组成 第2章:维度历史 第3章:维度可加性 第4章:维度查询 本篇概述 你将运用关系数据库来实施一个维度数据仓库.事实表和维表这两种类型的关系表构成了一个数据仓库模式的基本部分,在本书的第一部分,你将用mysql数据库建立这些基本部分. 第1章:基本组成   概述        本章将了解两个重要的主题:星型模式和代理键.星型模式是一种维度数据仓库的数据结构.代理键是在数据仓库中添加到事实表以作为主键的字段. 在本章你将开始一

解剖SQLSERVER 第一篇 数据库恢复软件商的黑幕

解剖SQLSERVER 第一篇  数据库恢复软件商的黑幕 这一系列,我们一起来解剖SQLSERVER 在系列的第一篇文章里本人可能会得罪某些人,但是作为一位SQLSERVER MVP,在我的MVP任期内希望可以对大家作出一些贡献 在第一篇里面涉及到某些内容可能不会以详细的方式给出截图并且和大家讲解,毕竟第一篇的篇幅比较长,希望大家见谅.. 在第一篇文章开始之前,先说三个题外话 第一个题外话  更新丢失 首先要做的事情是,跟大家道歉 在之前<SQLSERVER走起>的微信公众帐号里推送了一篇文章

我的第一篇博文:输入法编程

这是我的第一篇博文,在这之前,我要介绍一下我自己.我是一名核电工程师,已经工作了19年,我同时也是一名计算机爱好者.我利用业余时间学习编程. 最近我研究了输入法的编程.我阅读了很多园里的文章,特别是借鉴了启程之星公开的客户端的源码.研究已经取得进展,可惜眼睛看坏了,现在不是很方便用计算机,所以等我眼睛好一些时候,我会更详细地介绍我研究的输入法的心得.我做的几件事如下: 1. 启程之星输入法源码的主要原理搞懂了.编译成功,知道主要部分的逻辑关系: 2. 研究了启程之星最近版与服务器通讯的原理(此部

iBeacon的第一篇(基于Swift实现)

低功耗蓝牙技术现在几乎是只能手机的标配.随着这一技术的发展,苹果在2013年WWDC大会上,苹果推出iBeacon技术.该技术允许开发人员开发能够使用iBeacon硬件传感器的iOS应用程序,来为相应的应用程序提供更加精准的位置信息.2014年WWDC大会上,苹果表示,对iBeacon技术进行了改善,借助该技术,应用程序现在能够跟踪到用户所在的楼层的精确位置信息. iBeacon的工作方式是Transmitter-Receiver,即基站-接收机模式的.基站?这个时候不要想到移动.联通的那些大铁

android调用第三方库——第一篇 (转载)

转自:http://blog.csdn.net/jiuyueguang/article/details/9447245 版权声明:本文为博主原创文章,未经博主允许不得转载. 0:前言: 这两天一直在研究用android的jni调用第三方库,上网搜方法,但是都是泛泛而谈,没有demo,经过我几番折磨,写了n多的 helloword工程,总是不成功,工程名字也就由helloowrd转到shithelloword再转到fuckhelloword再转到 bitchhelloword再转到ganhello

入木三分学网络第一篇--VRRP协议详解第一篇(转)

因为keepalived使用了VRRP协议,所有有必要熟悉一下. 虚拟路由冗余协议(Virtual Router Redundancy Protocol,简称VRRP)是解决局域网中配置静态网关时,静态网关出现单点失效现象的路由协议. VRRP广泛应用在边缘网络中,它的设计目标是支持特定情况下IP数据流量失败转移不会引起混乱,允许主机使用单路由器(位于一个虚拟路由器组中, 在该组中,只有一台路由器--master路由器工作,转发数据包,其它路由器是backup路由器,不参与转发数据包),以及在实

cocos2d-x 3.2 之 2048 —— 第一篇

***************************************转载请注明出处:http://blog.csdn.net/lttree****************************************** 2048这款游戏,已经有一段时间了,之前一直想做一款. 可是.cocos2d-x 引擎 正在学习,并有别的事情忙.一直延到如今. 好吧.最终要做一下了~. ~ 这是第一篇,主要会说明一下: --屏幕适配 --主界面 布局及设计 在前言 中.已经展示过我做的2048,

《你的灯亮着吗》阅读笔记之第一篇与第二篇

首先我看到的是“走出问题的乌托邦”,这小小的七个段落就我让我有点没有搞懂,感觉像是研究问题的一本哲学书,感觉很苦恼,尤其不爱看书的我加上这样热的天气,让我很烦躁,最终导致对那些绕来绕去的话让我很蒙圈,但是我还是咬牙一个字一个字的坚持读了下来. 我还在想这本书没有目录吗?就是一段段的像是前面七段话这样的文章吗?后来我发现我错了,原来还是有目录的,目录就藏在这七个小小的段落之后,但是看到目录后我更蒙圈了,第一篇:问题是什么?.第二篇:这个问题是什么?.第三篇:什么事真正的问题?.第四篇:这是谁的问题

(转).net程序员转战android第一篇---环境部署

对于.net开发人员去写java,可谓说是见山是山, 因为太多的相同; 最近段时间因工作因素,将项目中部分功能需要移植到android平台上,经过半个月的煎熬,终于搞完了. 文章中将直观记录我做项目中对android开发的学习和大家一起分享. 好了,废话不多说.进入主题; 准备事项 先从环境搭建开始,博主使用的是 系统:windows server 2003 准备文件:JRE.JDK6以上 | eclipse 3.6.2版本 | ADT-21| Android SDK   当以上文件都准备好了,