大数据运营之数据存储

大数据服务的数据源不但来自归属于不同行业的组织之中,而且其类型还具有多样性(Variety)特征。

多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据,还包括歌曲、电影这样的非结构化数据,此外网页、邮件这样的数据介于结构化和非结构化之间,属于半结构化数据,也是大数据服务的重要数据源。

结构化数据来源于业务需求,系统分析员将需求中静态的“名词”提取出来并进行抽象,作为数据库表结构设计的依据。比如我们设计一个学籍管理系统,通过分析发现“张三”、“李四”等学生具有姓名、年龄、所属院系、所选课程、课程分数等属性,于是系统分析员将这些属性选取出来并设计一个“学生”类,那么“学生”表结构就相当于一个模板,可以将“张三”、“李四”等学生的姓名、年龄、班级等结构化数据存储到数据表中。由于数据表是二维的,借助关系型数据库的SQL语言,可以从多个维度对结构化数据进行查询统计。

与结构化数据相对的是非结构化数据。顾名思义,非结构化数据是不可以提取字段并定义属性的,只能以图片、语音、视频的媒体形式存在。虽然非结构化数据不像结构化数据那样能够进行统计分析,但是并不代表非结构化数据并没有价值。

非结构化数据可以以多媒体的形式存在,生动形象地反馈信息,因此我们可以从非结构化数据中采集有价值的信息,并将这些采集的新增转化为结构化数据,通过对非结构化数据的“理解”来发现其中隐藏的价值。

介于结构化数据和非结构化数据之间的是半结构化数据。半结构化数据的结构和内容混合在一起,例如电子邮件、网页等。从半结构化数据中同样可以抽取出许多有价值的数据,比如电子邮件中可以采集到发件人、收件人、标题等,通过对邮件的收发地址、频率、主题等进行分析,可以形成以电子邮件为通信媒介的社交网络。

企业可以根据应用的要求、数据的规模、数据的类型等维度进行分析和设计,选择不同的存储架构。

对于数据规模大、数据结构简单、对查询效率要求高的应用,可以采用Hadoop/Hbase这样的分布式存储架构。由于Hadoop/HBase存储架构采用键值存储结构,具有良好的可扩展性,因此可以通过增加基础设施资源来提高查询效率,系统整体性能随着集群规模的增大而线性增长。

对于需要关联多个数据模型才能实现的分析型应用,则可以考虑采用关系型数据库作为存储库。对于以邮件、文档、录音、录像等文件形式存在的非结构化数据,可以采用NAS(Network Attached Storage,网络连接式存储)存储架构,对于存取频率高、单次存取数据量小的结构化数据,具有明确数据类型和数据长度,可以考虑采用SAN(Storage Area Network,存储区域网络)存储架构。

对于以文件为存取单位的非结构化数据,则适合采用NAS(Network Attached Storage,网络连接式存储)存储架构。通常情况下,存储架构采用SAN和NAS混合的形式。

SAN和NAS属于“主机+磁盘阵列”的系统架构,在大数据时代,随着数据量的不断增加,企业越来越采用“单机+硬盘”组成的系统架构。这种架构适合于需要批量数据处理的分析型应用,并且对单个应用设备的能力要求不高,可以有效地利旧低端设备,可以快速地实现横向资源扩展。

原文地址:https://blog.51cto.com/lifudong/2448807

时间: 2024-10-02 08:23:35

大数据运营之数据存储的相关文章

大数据运营之数据治理

数据治理包括:隐私.安全.合规性3个方面. 大数据价值创造的前提和基础是企业自身的数据以及全社会开放的数据,当数据开放为社会带来好处的同时,也同时因此了隐私侵犯问题.隐私是社会赋予个人或者企业的权利,隐私权受到法律的保护,因此,企业在利用大数据的同时,要首先考虑大数据应用是否会侵犯他人或者组织的隐私. 企业可以多种方式来解决隐私触犯问题. 对于企业向内部人员提供的大数据服务,可以通过数据权限保证隐私数据不被非法获取,如果企业内部用户具有获取隐私数据的权限,要进行数据使用行为的记录和跟踪.例如,电

《美团 R 语言数据运营实战》

美团 R 语言数据运营实战 2018年08月02日 作者: 喻灿 刘强 文章链接 3689字 8分钟阅读 一.引言 近年来,随着分布式数据处理技术的不断革新,Hive.Spark.Kylin.Impala.Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益成为各类企业和机构的标配.在这种背景下,是否能探索和挖掘数据价值,具备精细化数据运营的能力,就成为判定一个数据团队成功与否的关键. 在数据从后台走向前台的过程中,数据展示是最后一步关键环节.与冰冷的表

大数据运营-服务型企业架构新思维

目前市面上关于大数据的图书主要分为两类:一类主要讲大数据对社会生活的影响,属于大数据科普书,读一读可以增强对大数据的感性认识:另一类则属于大数据专业技术书,主要讲大数据相关技术,可以帮助开发出大数据应用. 本书既不是泛泛的谈大数据的重要性,也不深入专业技术细节,而是从业务和企业发展战略出发,运用系统化和全生命周期管理思维,给出大数据从需求到落地的整体解决方案.犹如个人的修齐治平,在大数据时代,企业要想得以生存和发展,同样需要经历筑巢.联姻.孕育.分娩.培育以及腾飞的6个发展阶段. 在筑巢阶段,企

大数据运营之孕育:分析处理系统容量设计方法

[本文摘自:李福东<大数据运营>3.5.1.2,了解更多,请关注微信公号:李福东频道] 编者按 大数据服务通常要经过数据ETL.数据存储.数据分析.数据展示.数据开放的过程,因此在计算能力.存储能力以及网络能力的估算上也有自身的特点. 正文 与事务处理应用相比,大数据服务属于分析处理应用,由于两者的数据处理特点不同,因此容量估算方法也有一定的区别. 大数据服务通常要经过数据ETL.数据存储.数据分析.数据展示.数据开放的过程,因此在计算能力.存储能力以及网络能力的估算上也有自身的特点. 大数据

大数据运营之孕育小结局:凡事预则立,不预则废

[文摘自:李福东<大数据运营>第3章内容回顾?,了解更多请关注微信公号:李福东频道] 编者按 "孕育"意味着埋下一颗希望的种子,要想让这个"种子"满足预期要求,必须从全局和长远考虑,对于设计大数据服务这颗高科技"种子",还应当具备正确的思维方式,具备面向服务.面向过程.全生命周期.数据即资产的观念,将大数据作为服务或者产品来对待,以价值创造为衡量大数据服务的原则,整合企业内部及社会数据,充分挖掘大数据的潜力. 文章正文 不同于面向操作

大数据时代的数据存储,非关系型数据库MongoDB

在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQL(非关系型数据库). 为什

小数据大道理:新书《大数据运营》众筹启示

2015年7月,我的***作<大数据运营>在众筹网发起30天的图书预售活动,筹资金额5000元,从项目发起的两天半时间,即周五下午到周日晚上,就超额完成了预定目标,非常的震撼.最终,总共得到102名支持者的支持,除了两位无私支持者一位,恰好是100为获得实物回报的支持者,总筹资金额7999元,超额完成了预定目标. 通过众筹网的图书推广活动,也获取到支持者的订单数据,具体包括下单时间.配送地点.购书数量.购书金额.与笔者的社会关系等.由于只有102位支持者,所以订单数据量很小,所有就不能称之为&

大数据影响安防 存储分析问题迎刃而解

大数据无疑是今年的热门关键词之一,网络飞速发展,信息时代扑面而来,大量数据涌现.这些数据的价值,若能应用便是一笔财富,若不能挖掘其价值 进行应用,则只是数据,甚至可能是一种负担.安防数据也正在以几何级的速度快速增长,越来越多的安防用户对大数据提出了更高的要求,希望能够通过海量数据 的分析,达到预测预警的作用. 大数据对安防的真正意味是什么?对安防监控有何帮助? 美国利用大数据的做了什么? 在谈大数据对安防监控的影响之前,我们先来看下在大数据应用方面较为成熟的美国利用大数据做了些什么? 1.美国国

大数据时代的数据存储,非关系型数据库MongoDB(一)

爆炸式发展的NoSQL技术 在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQ