第四章
39、为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行
1、提高两个系统的性能 2、操作数据库支持多事务的并发处理,需要并发控制和恢复机制,确保一致性和事务的鲁棒性
3、两者有着不同的数据的结构、内容和用法
40、什么是数据仓库
数据仓库是一种数据库,它与单位的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持,是一个面向主题的、集成的、时变得、非易失的数据集合,支持管理者的决策过程。
41、数据仓库的构建需要
1、数据集成 2、数据清理 3、数据统一
42、单位如何使用数据仓库的信息
1、提高顾客关注度,这包括顾客购买模式
2、根据按季度、按年、按地区的营销情况比较,重新配置产品和管理产品的投资,调整生产策略。
3、分析运作情况并找出利润源
4、管理客户联系,进行环境调整,管理公司的资产开销
43、OLTP(联机事务处理)和OLAP(联机分析处理)的主要区别
1、用户和系统的面向性:OLTP是面向顾客的 OLAP面向市场的
2、数据内容:OLTP系统管理当前数据 OLAP系统管理大量的历史数据
3、数据库设计:OLTP采用实体-联系数据模型和面向应用的数据库设计 OLAP通常采
用星形或雪花模型和面向主题的数据库设计
4、视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不
同单位的数据 OLAP系统处理来自不同单位的信息,以及多个数据库集成的信息。
5、 访问模式:OLTP系统的访问主要由短的原子事务组成,OLAP系统的访问大部分是只读操作
44、数据仓库的三层体系结构
1、底层是仓库数据库服务器 2、中间层是OLAP服务器 3、顶层是前端客户层
45、数据仓库模型
1、企业仓库:企业仓库搜集了关于主题的所有信息,跨越整个企业
2、数据集市:数据集市包含企业范围数据的子集,对特定的用户群是有用的
3、虚拟仓库:操作数据库上视图的集合
46、数据仓库开发的自顶向下和自底向上的优缺点是什么?
自顶向下开发企业仓库是一种系统的解决方案,并能最大限度地减少集成问题。然而,它费用高,开发周期长,并且缺乏灵活性,因为整个组织就共同数据模型达成一致时比较困难的。设计、开发、配置独立的数据集市的自底向上的方法提供了灵活性、低花费,并能快速回报投资。然而,将分散的数据集市集成,形成一个一致的企业数据仓库时,可能导致问题。
47、数据仓库系统使用工具和程序的功能
1、数据提取 2、数据清理 3、数据变换 4、装入 5、刷新
48、元数据库包括的内容:
1、数据仓库结构描述 2、操作元数据 3、用于汇总的算法
4、由操作环境到数据仓库的映射 5、关于系统性能的数据 6、商务元数据
49、在OLAP中,如何使用概念分层
在多维数据模型中,数据组织在多维空间,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性
50、典型的OLAP操作方法
1、上卷 2、下钻 3、切片和切块
4、转轴 5、其他OLAP操作 6、OLAP系统与统计数据库
2017.06.29数据挖掘基础概念第四章
时间: 2025-01-02 17:02:07
2017.06.29数据挖掘基础概念第四章的相关文章
2017.06.29数据挖掘基础概念第二.三章
第二章21.研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型.编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22.数据散布常见的度量量(数据如何分散的方法/识别离群点)极差 四分位数.四分位数极差.五数概括图.方差和标准差23.审视数据的图形条形.饼图.线图.分位数图.分位数-分位数图.直方图和散点图
2017.06.29数据挖掘基础概念第十,十一章
第十章63.什么是聚类分析 一个把数据对象划分成子集的过程.每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似.由聚类分析产生的簇的集合称做一个聚类.64.数据挖掘对聚类的要求 1.可伸缩性 2.处理不同属性类型的能力 3.发现任意形状的簇 4.对于确定输入参数的领域知识的要求 5.出来噪声数据的能力 6.增量聚类和对输入次序不敏感 7.聚类高维数据的能力 8.基于约束的聚类 9.可解释性和可用性 10.划分准则 11.簇的分离性 12.相似性度量 13.聚类空间65.基本聚类
2017.06.29数据挖掘基础概念第六,八,九章
第六章51.关联规则的挖掘的两个过程1.找出所有的频繁项集2.由频繁项集产生强关联规则52.频繁项集挖掘方法 1.Apriori算法 2.挖掘频繁项集的模式增长方法 3.使用垂直数据格式挖掘频繁项集53.提高Apriori算法的效率 1.基于散列的技术 2.事务压缩 3.划分 4.抽样 5.动态项集计数 第八章54.如何进行分类 数据的分类是一个两阶段过程,包括学习阶段和分类阶段. 在第一阶段,建立描述预先定义的数据类或概念集的分类器 在第二阶段,使用模型进行分类,首先评估分类器的预测准确率55
2017.06.29 数据挖掘概念知识第一章
第一章1.数据仓库技术:1.数据清理 2.数据集成 3.联机分析处理2.数据挖掘(知识发现)过程P5详见图 1.数据清理 2.数据集成 3.数据选择 4.数据变换 5.数据挖掘 6.模式评估 7.知识表示3.大数据的特点: 1.量大 2.种类多 3.处理速度快 4价值密度低 5.复杂性4.类与概念描述方法过程: 1.数据特征化 2.数据区分 3.数据特征化和区分5.分类如何提供导出的模型: 导出的模型可以多种形式表示:分类规则.决策树.数学公式或神经网络6.一个模型是有趣的: 1.易于被人理解
Java语言程序设计(基础篇) 第四章 数学函数、字符和字符串
第四章 数学函数.字符和字符串 4.2 常用数学函数 方法分三类:三角函数方法(trigonometric method).指数函数方法(exponent method)和服务方法(service method) 4.4 String类型 String类型不是基本类型,而是引用类型(reference type).
2017.07.06 IT项目管理笔记整理 第四章
进度是对执行的活动和里程碑所制定的工作计划日期表. 进度问题是项目生命周期内造成项目冲突的主要原因. 时间管理原则: 1.区分重要与紧急的关系 2.适当运用Pareto原则 3.合理预算 4.有限反应 5.果断决策 6.大胆.完整的授权 7.例外管理 8.效能与效率 9.活动与效果 时间管理技巧: 1.每日计划 2.预料 3.分析时间 4.最后时限 5.上交问题 6.合并 7.反馈 8.计划躲避 9.可见性 10.习惯软件项目进度管理的主要过程: 1活动定义,确定项目团队成员和项目干系人为完成项
Work 2(演讲类) (2017.06.29)
《Python网络编程基础》第四章 域名系统
域名系统(DNS) 是一个分布式的数据库,它主要用来把主机名转换成IP地址.DNS以及相关系统之所以存在,主要有以下两个原因: 它们可以使人们比较容易地记住名字,如www.baidu.com. 它们允许服务器改变IP地址,但是还用同样的名字. 作为一个例子,让我们看一下查询 www.baidu.com 首先,您的程序会和操作系统配置文件指定的本地名称服务器通信.这个服务器是一个递归的名称服务器,它收到请求并以适当的方式传递下去,它会为您完成大量工作. 递归服务器做的第一件事情是询问.co
2017.4.6课后作业(第四章.简答题4)
1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Text; 5 using System.Threading.Tasks; 6 7 namespace lesson4.entity 8 { 9 /// <summary> 10 /// 甜品类 11 /// </summary> 12 class TP 13 { 14 public TP(string na