数据仓库与数据挖掘(二)

1、简述数据仓库的设计步骤。

数据仓库规划(用户业务目标、仓库目标)和需求分析、建模、物理模型设计、部署、维护。

2、简述星型模式和雪花模式的区别。

一个事实、一组维表

一个事实、维表接维表

3、数据仓库三种模式之间的关系。

星型、雪花、星座

4、在设计数据仓库时,为什么确定事实表的粒度非常重要?

事实与粒度相匹配。

5、以下关于数据粒度的叙述中哪些是错误。

(1)粒度是指数据仓库小数据单元的详细程度和级别。

(2)数据越详细,粒度就越小,抽象级别也就越高。

(3)数据综合度越高,粒度就越大,抽象级别也就越高。

(4)粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

6、以下关于数据仓库开发特点的叙述中哪些是错误的。

(1)数据仓库开发要从数据出发。

业务需求

(2)数据仓库使用的需求在开发出来后才会明确。

先明确,再开发。设计时要能够应对未来的变化。

(3)数据仓库开发一个不断循环的过程。

(4)数据仓库中数据的分析和处理十分灵活,没有固定的开发模式。

7、以下关于数据仓库设计的说法中哪些是正确的。

(1)数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计。

(2)在进行数据仓库主题数据模型设计时,应该按部门业务应用的方式来设计数据模型。

(3)在进行数据仓库主题数据模型设计时要强调数据的集成性。

(4)在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域。

8、维表中维有哪些类型?

结构维、信息维、分区维、分类维、退化维、一致维、父子维

9、在数据仓库的物理模型设计中,为什么要考虑维的概念分层?

多级汇总、深入洞察、不同用户不同维、灵活

10、在数据仓库的物理模型设计中,合并表组织策略有哪些好处?

节省I/O开销

思考:

1、源变化。

急:先处理、再分责

2、bottom-up/top-down

top-down:技术成熟、业务过程理解透彻。规范化程度高,最小化数据冗余与不一致性。便于全局。

周期长、见效慢;风险高。

bottom-up:见效快,投资少,灵活;由于部门需求简单,容易实现。

数据逐步清洗提炼。

原文地址:https://www.cnblogs.com/moqingtong/p/8284293.html

时间: 2024-11-05 16:39:17

数据仓库与数据挖掘(二)的相关文章

数据仓库与数据挖掘的一些基本概念

下面内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据能够马上传送到计算中心进行处理,并在非常短的时间内给出处理结果.这样做的最大长处是能够即时地处理输入的数据,及时地回答.也称为实时系统(Real time System).衡量联机事务处理

数据仓库与数据挖掘技术pdf

下载地址:网盘下载 内容简介 编辑 本书介绍了以数据仓库.数据挖掘和联机分析为核心技术的商务智能的基本概念.基本原理.开发方法.开发工具.应用领域和管理方法等内容.全书共分为10章,包括商务智能基本概念.数据仓库开发模型.数据仓库开发应用过程.联机分析.数据挖掘基本原理和技术.数据挖掘应用工具.电子商务的智能化.商务智能的管理应用,以及商务智能系统的开发应用实例等内容.每章后还附有可供读者自我测试的习题,以帮助读者对全书的理解.本书内容翔实,结构清晰,应用性强,既可以作为高等学校信息管理与信息系

学习笔记-数据仓库和数据挖掘

以下内容摘自互联网并作了整理. 名词: BI(Business Intelligence):商业智能, DW(Data Warehouse):数据仓库,详见正文Q1部分. OLTP(On-Line Transaction Processing):联机事务处理 也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果.这样做的最大优点是可以即 时地处理输入的数据,及时地回答.也称为实时系统(Real time System).衡量联机事务处理

维基百科上—数据仓库、数据挖掘、OLAP三者之间的区别

数据仓库可以作为数据挖掘和OLAP等分析工具的资料来源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果. 数据挖掘和OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对数据进行复杂的查询动作,其预设查询条件由用户预先设定,而数据挖掘,则能由资讯系统主动发掘资料来源中,未曾被查觉的隐藏资讯,和透过用户的认知以产生知识. 数据挖掘(Data Mining)技术是经由自动或半自动的方法探勘及分析大量的资料,以

数据仓库与数据挖掘(一)

1.数据挖掘的特点: 数据挖掘的数据源必须是真实的: 数据挖掘所处理的数据必须是海量的: 查询一般是决策制定者(用户)提出的随机查询: 挖掘出来的知识一般是不能预知的: 2.数据挖掘算法的组成: 模型或模式结构: 数据挖掘任务: 评分函数: 搜索和优化方法: 数据管理策略: 3.根据数据分析者的目标,可以将数据挖掘任务分为: 模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等: 描述建模:目标是描述数据的全局特征. 预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进

用HAWQ轻松取代传统数据仓库(十二) —— 查询优化

即便对SELECT等数据库查询语句已经很熟悉了,但HAWQ里的查询有其自己的特点,还是需要研究一下. 一.HAWQ的查询处理流程        理解HAWQ的查询处理过程有助于写出更加优化的查询.与任何其它数据库管理系统类似,HAWQ也有如下的查询执行步骤: 用户使用客户端应用(如psql)连接到HAWQ master主机上的数据库实例,并向系统提交SQL语句. master接收到查询后,由查询编译器解析提交的SQL语句,并将生成的查询解析树递交给给查询优化器. 查询优化器根据查询的磁盘I/O.

数据挖掘(二)——knn算法的java实现

1.K-近邻算法(Knn) 其原理为在一个样本空间中,有一些已知分类的样本,当出现一个未知分类的样本,则根据距离这个未知样本最近的k个样本来决定. 举例:爱情电影和动作电影,它们中都存在吻戏和动作,出现一个未知分类的电影,将根据以吻戏数量和动作数量建立的坐标系中距离未知分类所在点的最近的k个点来决定. 2.算法实现步骤 (1)计算所有点距离未知点的欧式距离 (2)对所有点进行排序 (3)找到距离未知点最近的k个点 (4)计算这k个点所在分类出现的频率 (5)选择频率最大的分类即为未知点的分类 3

数据仓库与数据挖掘(一)

1.简述数据仓库有哪些特征. 面向主题.集成.稳定性即非易失的.随时间而变化即时变的 2.简述数据仓库与传统数据库的主要区别. 一个是数据库.一个是数据仓库,就不是一个东西,怎么区别嘛. 数据仓库是建立在数据库之上的一个数据环境. 3.为什么需要分离的数据仓库? 不影响生产, 操作型数据是时刻变化的,操作型数据需要清洗后才能供数据仓库使用 4.简述数据仓库的体系结构. 5.简述商务智能和数据仓库的关系. 6下列关于数据仓库的叙述中,哪些是错误的. (1).数据仓库通常采用三层体系结构. 四层:源

[数据仓库]-0023-独一无二的数据仓库建模指南系列教程升级版

2018最新最全大数据技术.项目视频.整套视频,非那种淘宝杂七杂八网上能免费找到拼凑的乱八七糟的几年前的不成体系浪费咱们宝贵时间的垃圾,详细内容如下,视频高清不加密,需要的联系QQ:3164282908(加Q注明博客园). 课程名称: 独一无二的数据仓库建模指南系列教程升级版 本课程也有部分免费的视频课程<数据仓库建模指南系列教程>,大家可以前往学习和了解 https://edu.hellobi.com/course/54/lessons [温馨提示:1. 你可以在PC端浏览器或者微信收藏该页