抽取、转换和装载介绍(二)归拢需求

没怎么搞过实际项目,但是也觉得需求分析确实是很重要的。在进行数据的ETL时,归拢需求很关键,涉及到收集并整理所有已知的需求、实际情况和影响ETL系统的约束。

关于ETL系统设计和开发有一下几个方面的需求。

1、业务需求

这里业务需求很直接,就是DW/BI系统用户的信息需求,后面的过程需要那些数据,我的ETL就应该以其为目标。

2、合规性

合规性是说提供的表报中的数据必须是正确和完整的,并没有经过任何篡改。

一般数据仓库中应该特别注意的需求有:

  • 保存数据源和随后数据登台的副本;

  • 为改变任何数据结果的完整性的事物处理流程提供证明;
  • 完整记录用于分配、调整和推导的算法;
  • 随时间推移为数据副本的保密性提供证明,包括在线和离线。

3、数据质量

数据质量的重要性怎么强调都不过分。

  • 好的数据质量对于数据挖掘的效果来说其关键性作用,好数据,好业务;

  • 数据源大多都是分布式的,需要对各种不同的数据进行有效集成;
  • 合规性的需求使得不能对数据进行粗心大意的处理。

4、安全性

数据仓库行业对于数据安全性的心态是矛盾的,数据仓库本身追求如何向决策制定者广泛的发布数据,

而安全性则要求对数据进行限制,只有需要了解的用户才有权访问。

5、数据集成

数据集成最终目标是要是所有的系统无缝联接、协调工作。数据集成表现在数据仓库中的一致性维度和一致性事实。

一致性维度是指确立整个业务过程中公共的维度属性。

一致性事实是说对各个独立数据库的公共业务指标达成一致。

6、数据等待时间

数据等待时间描述了源系统数据通过DW/BI系统提供给业务用户的速度有多快。

数据等待时间对ETL的架构有重大影响。

巧妙的处理算法、并行化处理和强有力的硬件支持可以加速传统的面向批处理的数据流。

如果要求等待时间很急迫,ETL系统架构即必须从批处理转向流处理。

7、存档和沿袭

建议是在ETL管道的每个主要活动(抽取、清洗和一致化,以及提交)之后都将数据写入磁盘。

8、用户提交界面

ETL的最后一步是将数据移交给BI应用程序,必须对数据内容和结构负责。

否则导致BI应用程序复杂度大大增加,降低查询和创建报表的速度,并使用户感觉数据过于复杂。

9、可用的技能

有些ETL决策必须基于建立和管理系统时所能获得的人力资源来制定。

比如团队自身没有C++编程能力或者无法达到相应的水平,就不应该建立一个严重依赖于C++语言的处理模块。

如果有了主流厂商的ETL工具相关技能,心里就有谱多了。

另一个是手工编写代码生成ETL工具,还是使用厂商的开发包。

10、遗留许可证

这个还没看懂啥意思,许可证?软件的许可证?

时间: 2024-10-20 13:24:57

抽取、转换和装载介绍(二)归拢需求的相关文章

抽取、转换和装载介绍(五)抽取数据

抽取和提交数据虽然也很重要,但是只是传输和装载数据而已. 数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据. 子系统4--数据清洗系统 主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述. 数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数据仓库中对数据质量进行度量并最终加以控制. 这一子系统的目标应当包括: 对数据质量问题的早期诊断和鉴别分类(早期诊断) 让源系统的集成工作提供更优质的数据(更优数据) 具有为ETL过程中遇到的数据错误

抽取、转换和装载介绍(三)ETL系统的34个子系统

这部分对ETL系统的架构中34个关键子系统进行分类.ETL其实可以分为下面四个步骤: 抽取.在ETL环境中从源系统收集原始数据并且在对任何对数据的重要重构发生之前都将数据写入磁盘.子系统1到子系统3都支持抽取过程. 清洗和一致化.提高了从源系统接收数据的质量,并且对两个或者多个源系统中的数据进行了合并,创建并强化了一致性维度和一致性度量.子系统4到子系统8描述了支持清洗和一致化过程所需的架构. 提交.从物理上将数据组织和装载到呈现服务器的目标维度模型中.子系统9到子系统21提供了若干种将数据提交

抽取、转换和装载介绍(六)向呈现层交付数据(待续)

ETL系统的主要任务是在提交阶段传递维度表和事实表. 交付子系统是ETL架构中的中枢子系统.维度表是数据仓库的心脏,它们为事实表提供了上下文. 维度表是进入事实表的入口. 子系统9--缓慢变化维管理器 ETL中最重要的要素之一是实现缓慢变化维度(SCD)逻辑. 数据仓库得知某一维度中一个已有的行发生了改变时,有三种基本的SCD响应方式--类型1覆盖,类型2添加新行,以及类型3添加新列.SCD采用这三种方法或者其混合的方法来系统地处理维度中的时变问题. 子系统10--代理键生成器 代理键生成器应当

抽取、转换和装载介绍(七)管理ETL环境(待续)

数据仓库的目标之一是能够为增强业务功能提供适时的.一致的和可靠的数据. 为了达到上述目标,ETL必须按照下述三条标准不断地加以完善: 可靠性 可用性 易管理性 子系统22--作业调度器 子系统23--备份系统 子系统24--恢复和重启系统 子系统25--版本控制系统 子系统27--工作流监视器 子系统28--排序系统 子系统29--沿袭和依赖分析器 子系统30--问题自动调整系统 子系统31--并行/管道系统 子系统32--安全系统 子系统33--合规性管理器 子系统34--元数据知识库管理器

linux程序分析工具介绍(二)—-ldd,nm

本文要介绍的ldd和nm是linux下,两个用来分析程序很实用的工具.ldd是用来分析程序运行时需要依赖的动态库的工具:nm是用来查看指定程序中的符号表相关内容的工具.下面通过例子,分别来介绍一下这两个工具: 1. ldd, 先看下面的例子, 用ldd查看cs程序所依赖的动态库: [email protected]:~/Public$ ldd cs linux-gate.so.1 => (0xffffe000) libz.so.1 => /lib/libz.so.1 (0xb7f8c000)

SharePoint 2013 Word 转换PDF服务介绍及示例

原文:SharePoint 2013 Word 转换PDF服务介绍及示例 前言:在SharePoint使用过程中,经常会发现将文档进行格式转换的需求,之前,看到SharePoint 2013有将PPT转换PDF文档的服务,后来,才发现SharePoint 2010开始,就有将Word文档转换PDF的服务了,用起来还是不错的. 下面,我们就来看看这个服务,如何将一个Word文档库批量转换成PDF文件,或者,将单一Word文档转换为PDF文档. 一.             效果展示 新建测试Wor

Lucene.Net 2.3.1开发介绍 —— 二、分词(五)

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词 上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只要出现这个字,不管它出现在什么位置.这就产生了上一小节开头讲的,对准确性产生了极大干扰.比如,如果有一段这样的话:“这是一个英雄!他有无法用词汇形容的孤单,但是他并没有用言语来表达.”这句话包含了“英 语 单 词”这四个字,但是却和“英语单词”一点关系都没有.首先想到的解决方法,就是把句子按词来划分

Avaya Exrience Portal(AEP)基础介绍 二(四大组件总结)

什么是Avaya Exrience Portal(AEP)? 1:提供语音(或者多媒体)自动化用户体验的软件平台:  2:基于标准的VXML(定义了如何使用语音识别.语音合成.互联网访问.数据库访问.语音文件播放.DTMF输入等功能开发一个完整的语音应用系统.)和CCXML(它基于XML定义了一系列开放标准的呼叫控制API)的应用:  3:支持多媒体处理:  4:完全基于Web架构:  5:支持TTS文语转换和语音识别技术:     2)AEP包含的组件   EPM:AEP集成的管理,报表,监控

Lucene.Net 2.3.1开发介绍 —— 二、分词(四)

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(四) 2.1.2 可以使用的内置分词 简单的分词方式并不能满足需求.前文说过Lucene.Net内置分词中StandardAnalyzer分词还算比较实用(见1.1.2小节).StandardAnalyzer为什么能满足我们的部分需求,而它又有哪些不足呢?看分词的好坏还是要从效果说起.简单的说,在中英文混合的情况下,StandardAnalyzer会把英文按空格拆,而中文则按单字拆.因为中文是按单字拆,所以对分词的准确性起到了干扰,