大数据运营之孕育:分析处理系统容量设计方法

【本文摘自:李福东《大数据运营》3.5.1.2,了解更多,请关注微信公号:李福东频道

编者按

大数据服务通常要经过数据ETL、数据存储、数据分析、数据展示、数据开放的过程,因此在计算能力、存储能力以及网络能力的估算上也有自身的特点。

正文

与事务处理应用相比,大数据服务属于分析处理应用,由于两者的数据处理特点不同,因此容量估算方法也有一定的区别。

大数据服务通常要经过数据ETL、数据存储、数据分析、数据展示、数据开放的过程,因此在计算能力、存储能力以及网络能力的估算上也有自身的特点。

大数据服务在不同阶段对于基础设施的需求如图3-2-19所示:

? ? ? ? ? ? ? ? ? ?图3-2-19大数据服务不同阶段基础设施需求

从图3-2-19可以看出,对于一个普通的大数据项目,通常要经过数据采集(1)、数据存储和数据转换(2.1,2.2,3.1,3.2,3.3,3.4)、数据展示(4.1,4.2)三大步骤,具体处理过程为:

第一步:从各种数据源采集数据

数据源分为内部和外部数据源两种。内部数据源是企业自身的数据,比如电信运营商的用户上网数据是从交换机获取的业务使用记录;

外部数据源是企业从外部获取的数据,比如移动终端配置数据是从第三方公司数据库获取的。采集数据的方式也分为主动和被动两种。

主动方式是主动去数据源抓取数据,比如可以通过网络爬虫在各大网站获取数据;被动方式是企业为数据源设定好存储位置,让数据提供方按照时间策略向指定位置存放数据。

第二步:数据存储和数据转换

企业可以根据数据特点不同采取不同的数据存储策略,如果数据规模大或者预期的数据规模大,传统的关系型数据库无法满足快速处理要求的,因而需要考虑采用分布式数据库,比如Hadoop/HBase。

类似Hadoop/HBase这样的分布式数据库的特点是扩展性好,如果存储空间不够,只需增加存储服务器即可。不足之处是HBase只适合单表或者多表之间关联关系简单的场景,对于需要数据操作或者多表关联的应用,还是需要基于关系型数据库实现。

关系型数据的优势就是能够对数据进行整合和统计,从而使得用户可以从多个维度来查看分析结果。当然,由于关系型数据库基于单机模式完成的架构设计,尽管也可以支持集群方式部署,但是横向扩展能力有限。

可见,多表关联查询要比键值映射方式对数据库管理系统的要求高,但是没有键值映射的方式扩展性好。

因此,在大数据存储时,需要结合应用需求和数据库存储特征来进行综合考量:使用分布式数据来存储数据规模大、增量大并且以数据查询为主的数据,采用关系型数据库完成需要多表关联的查询统计功能。

当原始数据存储到数据库中以后,需要对数据进行抽取、转换与加载,保证数据质量和应用要求。数据过程过程通常是经过初步的ETL,然后将数据存储数据仓库,接着再次对数据进行ETL,将数据加工成面向不同主题的数据集市,以便于从多个维度查看数据统计结果。

第三步:数据展示阶段

虽然已经经费了很大力气完成了数据的抽取、转换、丰富等工作,但是数据毕竟是给人看的,数据展示的越好,越容易让用户看到数据背后隐藏的事实和规律。

比如电信运营商为了查看各地区数据流量的多少,可以基于电子地图,不同数据流量区间用不同颜色标识,这样可以直观地看到各省数据流量的多寡。

(一)大数据分析处理系统容量估算方法

大数据分析处理系统容量估算可以分为:理论估算法和实验估算法两种类型。

理论估算法的数据基础包括文件数、单个文件数的记录条数、单条记录大小、数据采集周期,数据采集周期包括一次、一天、一个月等,这样就能够算出某个时间段内的总数据量大小。然后在考虑磁盘的冗余空间系数,就可以算出对于磁盘空间总的需求量。理论估算法适合于没有样本数据的场景。

理论估算法的计算公式为:存储空间大小 = 文件个数单个文件记录数单条记录大小时间长度冗余系数。

实验估算法基于某个时间段的样本数据。用户可以用操作系统自带的命令查看文件大小。如果进入数据仓库的数据从时间上是连续的,则可以通过样本数据测量值与时间长度相乘,算出大数据分析处理系统存储空间需求。

实验估算法的计算公式为:大数据分析处理系统存储空间大小 = 样本数据量大小时间长度冗余系数。

(二)大数据分析处理系统计算能力估算方法

传统数据处理与存储架构是“主机+磁盘阵列”的集群方式,主机可以是小机、PC服务器或者刀片服务器,磁盘阵列可以是NAS、SAN等,采用的协议可以是FC、IP等。

传统数据处理与存储架构解决了存储资源和计算资源的共享问题。多个服务器组成的集群可以将计算资源统一管理,接收请求的负载均衡器会根据服务器负荷将请求发送到计算资源充足的服务器。

磁盘阵列实现共享的方式更加容易理解,就是多个磁盘放到一个机箱中,机箱可以扩展并且机箱内可以热插拔磁盘,这样可以便于扩展磁盘空间。

“主机+磁盘阵列”的系统架构是将计算和存储分离,通过计算群和存储群的方式提高了并行处理能力,满足了高并发的事务处理应用的系统要求,但是这种架构也带来了新的问题,就是计算和存储资源的横向扩展能力是有限的。

大数据服务的特点是数据量大,尤其是随着时间的推移,数据量会不断增大,要求计算和存储资源能够具备几乎没有限制的扩展能力。

为了满足不断增加的数据量,谷歌公司提出了基于MapReduce和GFS的分布式计算架构,与“主机+磁盘阵列”的架构方式不同,谷歌公司利用廉价的机器设备,通过软件将能力不一的大量计算机设备连接到一起,降低了IT基础设施采购成本,提升了IT基础设施的扩展能力。随后,Apache受谷歌的GFS/MapReduce架构的启发,提出了Hadoop分布式计算架构。

可见,新型的面向大数据的分布式计算架构与“主机+磁盘阵列”的系统架构在设计思路上完全不同的,大数据计算能力估算的方法也是不同的。

作者简介

李福东,资深大数据和信息化专家,培训师,《大数据运营》著作者,现为北京某高科技公司CEO,拥有20年电信、金融、互联网等跨行业工作经验,长期致力于企业架构、大数据、人工智能、区块链、虚拟现实、数字化转型等创新与实践。

了解更多最新干货,请扫码加入本文作者知识星球(数智萤火虫),您将至少获得:

1、问题解答。72小时内答复数字科技相关问题。

2、精品文章。每周至少分享一篇原创精编长文。

3、精华PPT。最新培训、公开课PPT干货分享。

4、精美礼物。赠送小礼品、红包、作者签名书。

原文地址:https://blog.51cto.com/lifudong/2472672

时间: 2024-10-13 12:37:57

大数据运营之孕育:分析处理系统容量设计方法的相关文章

大数据运营之孕育小结局:凡事预则立,不预则废

[文摘自:李福东<大数据运营>第3章内容回顾?,了解更多请关注微信公号:李福东频道] 编者按 "孕育"意味着埋下一颗希望的种子,要想让这个"种子"满足预期要求,必须从全局和长远考虑,对于设计大数据服务这颗高科技"种子",还应当具备正确的思维方式,具备面向服务.面向过程.全生命周期.数据即资产的观念,将大数据作为服务或者产品来对待,以价值创造为衡量大数据服务的原则,整合企业内部及社会数据,充分挖掘大数据的潜力. 文章正文 不同于面向操作

大数据运营之孕育:服务过程设计,卓有成效的管理者

[本文摘自:李福东<大数据运营>3.6?,了解更多请关注微信公号:李福东频道] 编制按 大数据服务过程包括:服务目录管理.容量管理.可用性管理.连续性管理.服务等级管理.信息安全管理.供应商管理等. 正文 在设计方法方面,大数据服务与支撑企业运营的服务既存在区别,又存在联系.不同之处是:大数据服务的设计主要以"数据"为参考点,"数据"类型越多.越丰富.越新鲜,则越有助于设计好的服务:两者的共同点是:大数据服务归根结底还是为企业运营服务的,是为了提升企业在

【大数据技术】HBase与Solr系统架构设计

如何在保证存储量的情况下,又能保证数据的检索速度. HBase提供了完善的海量数据存储机制,Solr.SolrCloud提供了一整套的数据检索方案. 使用HBase搭建结构数据存储云,用来存储海量数据:使用SolrCloud集群用来搭建搜索引擎,将要查找的结构化数据的ID查找出来,只配置它存储ID. 1.用户write data写数据(wd) 从用户提交写数据请求wd1开始:经历wd2写入MySQL数据库或写入结构数据存储云中:wd3提交到Solr集群中,从而依据业务需求创建索引. 2.用户re

大数据运营-服务型企业架构新思维

目前市面上关于大数据的图书主要分为两类:一类主要讲大数据对社会生活的影响,属于大数据科普书,读一读可以增强对大数据的感性认识:另一类则属于大数据专业技术书,主要讲大数据相关技术,可以帮助开发出大数据应用. 本书既不是泛泛的谈大数据的重要性,也不深入专业技术细节,而是从业务和企业发展战略出发,运用系统化和全生命周期管理思维,给出大数据从需求到落地的整体解决方案.犹如个人的修齐治平,在大数据时代,企业要想得以生存和发展,同样需要经历筑巢.联姻.孕育.分娩.培育以及腾飞的6个发展阶段. 在筑巢阶段,企

必贝yo对企业大数据的处理与分析

必贝yo对企业大数据的处理与分析随着两化深度融合的持续推进,全面实现业务管理和生产过程的数字化.自动化和智能化是企业持续保持市场竞争力的关键.在这一过程中数据必将成为企业的核心资产,对数据的处理.分析和运用将极大的增强企业的核心竞争力.但长期以来,由于数据分析手段和工具的缺乏,大量的业务数据在系统中层层积压而得不到利用,不但增加了系统运行和维护的压力,而且不断的侵蚀有限的企业资金投入.如今,随着大数据技术及应用逐渐发展成熟,如何实现对大量数据的处理和分析已经成为企业关注的焦点.对企业而言,由于长

大数据运营之数据治理

数据治理包括:隐私.安全.合规性3个方面. 大数据价值创造的前提和基础是企业自身的数据以及全社会开放的数据,当数据开放为社会带来好处的同时,也同时因此了隐私侵犯问题.隐私是社会赋予个人或者企业的权利,隐私权受到法律的保护,因此,企业在利用大数据的同时,要首先考虑大数据应用是否会侵犯他人或者组织的隐私. 企业可以多种方式来解决隐私触犯问题. 对于企业向内部人员提供的大数据服务,可以通过数据权限保证隐私数据不被非法获取,如果企业内部用户具有获取隐私数据的权限,要进行数据使用行为的记录和跟踪.例如,电

运维监控大数据的提取与分析

本文内容整理来自[敏捷运维大讲堂]蒋君伟老师的线上直播分享.分别从以下3个维度来分享:1.云时代监控分析的窘境:2.使用标签标记监控数据的维度:3.监控数据应用场景. 云时代监控分析的窘境 在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据.传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担. 我们用一个典型的互联网档案分析应用举例说明: 这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时

小数据大道理:新书《大数据运营》众筹启示

2015年7月,我的***作<大数据运营>在众筹网发起30天的图书预售活动,筹资金额5000元,从项目发起的两天半时间,即周五下午到周日晚上,就超额完成了预定目标,非常的震撼.最终,总共得到102名支持者的支持,除了两位无私支持者一位,恰好是100为获得实物回报的支持者,总筹资金额7999元,超额完成了预定目标. 通过众筹网的图书推广活动,也获取到支持者的订单数据,具体包括下单时间.配送地点.购书数量.购书金额.与笔者的社会关系等.由于只有102位支持者,所以订单数据量很小,所有就不能称之为&

大数据云时代 游戏分析存在4大误区

最近几年,大数据这个词的火爆以及大数据技术的迅速发展,数据分析和数据挖掘的工作得到越来越多企业的重视,特别是在游戏行业,越来越多关于数 据的分析容和观点也井喷式提出,“数据驱动下的精细化运营”,“玩家群体的定量研究”,“移动游戏数据分析体系”等等概念的提出,可以看出游戏的研发和运 营过程中,对数据分析的需求是无穷无尽的,相应的,对数据分析的讨论也是各抒己见.而盲目过度依赖数据,或者主观的解读数据,带来的损失则是无法估计的. 以下,我将结合自己的工作经历,阐述以下数据指标会骗人和游戏数据分析中的几