监控数据仓库

     通常,数据仓库环境中两种受监控的操作成分是存储于数据仓库中的数据和数据的使用。监控数据仓库环境中的数据是管理数据仓库环境的基本能力。通过监控数据仓库环境中的数据能取得一些重要信息,包括:

■ 识别发生了什么增长,增长发生在什么地方,增长以什么速率发生

■ 识别正在使用什么数据。
■ 估算最终用户得到的响应时间。
■ 确定谁在实际使用数据仓库。
■ 说明正在使用数据仓库中的多少数据。
■ 精确指出数据仓库何时被使用。
■ 识别数据仓库的多少数据被使用。
■ 检查使用数据仓库的层次。 
       当数据体系结构设计者不知道这些问题的答案时,有效的管理运行中的数据仓库环境是不可能的。监控数据仓库真的有用吗?只要考虑一下知道“在数据仓库中什么数据正在被使用”有多么重要就明白了。数据仓库的特性是不停地增长。历史数据不停地加入数据仓库,汇总数据也不停地加入,新的抽取流在创建。同时数据仓库驻留的存储和处理技术并不昂贵。有时会问这样的问题:“为什么所有这些数据要积累起来?真有人用这些数据吗?”显然,不论是否有数据仓库的合法用户,在数据仓库正常运行期间,一旦数据放入数据仓库,数据仓库的开销就会增长。只要数据体系结构设计者没有办法确定如何使用数据仓库中的数据,那么除了不断购买新的计算机资源之外就别无选择了—购买更多的存储设备、更多的处理器,等等。但是通过监控数据仓库中数据的使用,就有机会把不用的数据移到其他介质上。当数据体系结构设计者发现当前一些数据没有使用,就把这种数据移到不昂贵的介质上,这是合适的做法。通过监控数据仓库中数据的使用和活动情况,数据体系结构设计者能确定现在什么数据不在使用,就能进行转移。监控数据仓库环境中的数据及活动会得到非常实在的和迅速的回报。

在数据监控处理期间,可以建立数据的各种概要文件包括:
■ 数据仓库中所有表的目录。
■ 这些表的内容。
■ 数据仓库中表的增长。
■ 用于访问表的可用的索引目录。
■ 汇总表和汇总源的目录。

监控数据仓库活动的需求通过下列问题来说明:
■ 什么数据正在被访问?
■什么时候访问?
■由谁访问?
■访问频率怎样?
■在什么细节层次?
■ 对请求的响应时间是什么?
■ 在一天的什么时间提出请求?
■ 请求多大的数据量?
■ 请求是被终止的还是正常结束的?

      在数据仓库环境中使用监控程序的一个根本问题是在哪儿进行监控。能进行监控工作的一个地方是最终用户终端。这是做监控工作的一个方便位置,因为这里有很多空闲的机器周期,并且在这里进行监控工作对系统性能只有很小的影响。但是,在最终用户终端监控系统意味着每个被监控的终端需要自己的管理员。在一个单独的D S S网络中,可能有多达10 000台终端,试图管理每个终端的监控工作几乎是不可能的。另一个途径是在服务器层次对D S S系统进行监控。在查询已形式化并且已经传给管理数据仓库的服务器后,才开始进行监控。毫无疑问,在此处管理监控程序要容易得多。但是存在系统范围内性能下降的很大可能性。因为监控程序使用服务器资源,监控程序影响整个D S S数据仓库环境的工作性能。监控程序的位置是必须仔细考虑的重要问题,要在管理的方便性和降低性能之间进行权衡。监控程序最有效的用途之一是能够将今天的结果与每天平均的结果进行比较。发现异常时,能够问一句“今天与每天平均的结果有什么不同?”这通常是有好处的。在大多数情况下会发现性能变化不象想象中那么坏。但为了做这样的比较,需要一个“每天平均概况”。“每天平均概况”包括了D S S环境中描述一天情况的各种标准的重要度量指标。一旦对当天的情况进行了度量,就可以与每天平均概况进行比较。当然,每天平均值总是随时在变化的。定期地追踪这些变化,使得对长期系统趋势能够进行度量将是有意义的。

时间: 2024-11-08 17:21:57

监控数据仓库的相关文章

BI - ETL运行时监控

对于任何事物而言,监督都是提高自身的有效手段,BI也是如此.从我个人的经验而言,BI的监督可以分为两类(欢迎拍砖讨论):运行时监督(Runtime Monitoring)与数据仓库健康状况的监督(DW Healthy Monitoring): 1. 运行时监督 所谓运行时监督是指监督数据从数据源到流到数据仓库的过程,通俗来讲就是监督ETL的执行过程.我相信绝大多数的BI系统都具有该功能,区别只在于实现监控的方式以及监控信息的详细程度 2. 数据仓库健康状况监督 所谓数据仓库的健康状况监督,其实就

网站数据仓库整体架构图及介绍

数据仓库 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因.因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据.数据仓库.数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集

浅谈数据仓库的基本架构(转)

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因.因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据.数据仓库.数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管

七、数据仓库元数据管理

原文:点击这里 数据仓库元数据管理 一.元数据的定义 元数据(metadata) 即数据的数据,是描述数据仓库结构和数据仓库建立方法的数据,主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及ETL的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计.部署.操作和管理能达成协同和一致.. 元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据 元数据按用途的不同分为两类

数据仓库系列之元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计.部署.操作和管理能达成协同和一致.元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化. 构建数据仓库的主要步骤之一是 ETL.这时元数据

大数据理论体系总结--数据仓库管理与全链路数据体系

前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家.那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术.大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来: 早在多年以前在Hadoop.Spark.Storm.Kafka等系列分布式计算与存储.消息中间件还没有成熟的时候,

第1节 hive安装:2、3、4、5、

第1节 hive安装: 2.数据仓库的基本概念: 3.hive的基本介绍: 4.hive的基本架构以及与hadoop的关系以及RDBMS的对比等 5.hive的安装之(使用mysql作为元数据信息存储) 课程内容:hive1.数据仓库的基本概念 了解2.hive基本概念 hive的安装部署 搞定3.hive的基本操作 建库建表操作 掌握 搞定 hive的基本语法 掌握 搞定 4.hive的shell参数 了解5.hive的函数 内置函数 了解 自定义函数 自定义udf函数 搞定 6.hive的数

禧云数芯大数据平台技术白皮书

白皮书作者:赵兴申 顾问:郑昀 出品方:禧云集团-基础技术中心-大数据与算法部 数据分析组:谭清勇.王明军.徐蕊.曹寿波 平台开发组:刘永飞.李喜延 数据可视化组:陈少明.董建昌 基础架构组:崔明黎.邱志伟.陈赏 第一章:数芯大数据平台 1.1 禧云大数据发展历程 知名咨询公司麦肯锡称:『数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对海量数据的挖掘和运用,预示着新一波生产率增长和消费盈余浪潮的到来.』良好的数据管理和处理技术,已经成为企业不可或缺的竞争优势. 禧云集团(

《数据仓库工具箱》——如何做好数据仓库

最近打算阅读一下数据仓库相关的书籍,百度了一下,有两本必读书<数据仓库工具箱>和<数据仓库>.简单介绍一下,<数据仓库>这本书更像是一本教材,里面的内容很经典:<数据仓库工具箱>看书名是一本单纯的工具书,其实里面都是实战.两本书各有千秋,我决定主要阅读<数据仓库工具箱>,今天分享第一章的内容,以后会做系列分享. 第一章主要介绍了维度建模的好处,Kimball的历史和技术架构,以及与其他类似架构的优劣,但其核心议题是:“如何做好数据仓库?” 说实话