数据挖掘概念与技术--数据仓库的概念

1.数据仓库的定义

  数据仓库是一个面向主题的,集成的,时变的和非易失的数据集合,支持管理部门的决策过程。

    面向主题的:数据仓库都围绕一些主题来组织:如顾客,供应商,产品和销售等某一特定的目的,而非组织机构的日常操作和事务管理。即:数据仓库排除对于决策无用的数据,它提供的是特定主题的简明视图。

    集成的:构建数据仓库是将多个数据源的数据集成在一起,数据源可以是:关系数据库,一般文件,联机事务记录。在此处用到前面所述数据清理和数据集成技术。

    时变的:数据存储从历史的角度提供信息(例如过去3个月,5-10年等)。

    非易失的:数据仓库总是物理的分别存放数据,他不需要事务处理,恢复和并发控制机制,只需要进行数据的初始存入和访问。

2.操作数据库与数据仓库的区别

    联机操作数据库系统,这种系统被称作联机事务处理系统(OLTP),它涵盖了组织机构的大部分日常操作,如购物,库存,制造,注册,记账等;    

    数据仓库系统,这种系统被称作联机分析处理系统(OLAP),主要用于为知识工人,用于决策提供支持。

    主要区别:

      用户和系统面向性。OLTP面向顾客,OLAP面向市场。

      数据内容。OLTP管理当前数据,OLAP管理历史数据,提供汇总和聚集机制,在不同粒度级别上存储和管理信息。

      数据库设计。OLTP系统采用实体联系数据模型并面向应用;OLAP系统采用星型和雪花模型并面向主题。

      视图。OLTP关注当前数据。OLAP常常跨越数据库模式的多个版本,并且还处理来自不同组织的信息,可能存放在多个存储介质上。

      访问模式。OLTP主要由短的原子事务组成,并需要并发控制和回复机制。

      

2.为什么不在操作数据库上进行联机分析处理,还要使用分离的数据仓库?

    1. 两者由于目的的不同,数据仓库的查询复杂,需要创建多维的数据组织,存取方法和实现方法。对操作数据库进行复杂的OLAP查询,会降低操作的任务的性能。

    2.并发控制和恢复机制用于OLAP这种只读操作会危害并行事务的运行。

时间: 2024-10-10 08:44:29

数据挖掘概念与技术--数据仓库的概念的相关文章

【读书笔记-数据挖掘概念与技术】数据立方体技术

基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴趣的单元需要计算 ∴引入--闭覆盖--一个单元没有后代或者它的后代的度量值与其不同 法2:只预计算涉及少数维的立方体,这些方体形成的数据立方体的立方体外壳 计算的一般策略:四种优化技术 1.    排序.散列和分组 2.    同时聚集和缓存中间结果 3.    当存在多个子女方体时,由最小的子女聚

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

【JavaScript】你知道吗?Web的26项基本概念和技术

Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每项对应一个概念或者技术. A — AJAX AJAX 全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是一种创建交互式网页应用的网页开发技术.根据Ajax提出者Jesse James Garrett建议,AJAX: 使用XHTML+CSS来表示信息: 使用Java

Java 技术体系基础概念

Java 技术体系基础概念 =============================================================================== 概述: =============================================================================== 编程语言: [百度百科解释] 编程语言俗称"计算机语言",种类非常的多,总的来说可以分成机器语言.汇编语言.高级语言三大类.电脑每做的

你知道吗?Web的26项基本概念和技术

这是我在网上看到一篇不错的文章,拿出来与大家分享一下:希望有所帮助 作者: 小鱼  来源: 前端里  发布时间: 2014-08-01 22:56  阅读: 10477 次  推荐: 51   原文链接   [收藏] Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每项对应一个概念或者技术. A - AJAX AJAX 全称为"Asynchronous JavaScript

射频识别技术漫谈(1)——概念、分类

现代社会智能卡已经渗透到生活的方方面面,公交卡.考勤卡.身份证.手机卡等等数不胜数. 智能卡按使用时是否和读卡器接触可分为接触式智能卡和非接触式智能卡,接触式智能卡上有6-8个触点,使用时插在卡座上,典型的如手机卡以及以前的公用电话卡.非接触式智能卡没有触点,卡上也没有电源,通过读卡器产生的电磁场获得能量并与读写器交换信息.由于非接触式智能卡的无源和免接触特性,卡的使用寿命和安全性大大提高,目前应用越来越广泛. 根据安全等级,智能卡可分为存储器卡.逻辑加密卡和CPU卡.存储器卡就像一个无人看守且

消息队列技术之基本概念

最近一直在总结Azure Messaging ServiceBus Messaging相关的技术:消息顺序.消息持久化.复杂对象消息的序列化.消息事务.消息回执等机制. 感觉有必要补充一篇消息队列技术的基本概念,无论RabbitMQ.ActiveMQ还是其他,都有的一些基本概念.术语.机制,分享给大家,希望大家在搞消息队列技术的时候能够快速 理解.排上用场. 1. 消息生产者.消息者.队列.主题 消息生产者Producer:发送消息到消息队列. 消息消费者Consumer:从消息队列接收消息.

Web的26项基本概念和技术

Web的26项基本概念和技术 Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每项对应一个概念或者技术. A — AJAX AJAX 全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是一种创建交互式网页应用的网页开发技术.根据Ajax提出者Jesse James Garrett建议,AJAX: 使用XHTML+C

【你知道吗?Web的26项基本概念和技术】

Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每项对应一个概念或者技术. A - AJAX AJAX 全称为"Asynchronous JavaScript and XML"(异步JavaScript和XML),是一种创建交互式网页应用的网页开发技术.根据Ajax提出者Jesse James Garrett建议,AJAX: 使用XHTML+CSS来表示信息: 使