大数据技术 vs 数据库一体机[转]

http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html

目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系数据库)技术对比如下:

硬件架构

从本质上来讲,两者的硬件架构基本相同,都是采用x86服务器集群的分布式并行模式来应对大规模的数据与计算。但是,数据库一体机的商家大都会对硬件体系进行面向产品化的、系统性的整体调优,同时也会有各自的特色手段,如Oracle ExaData的Infiniband,Flash Cache,IBM Nettezza的FPGA等。

软件体系

大数据与数据库一体机最核心的区别在软件体系上。

数据库一体机的核心是SQL体系,这不只是指SQL解析,更重要的是指包括SQL优化引擎、索引、锁、事务、日志、安全以及管理等在内的完整庞大的技术体系。它是成熟的,面向产品的;

大数据技术的MapReduce则提供了一个面向海量数据处理的分布式编程框架,而使用者需要自行编制所需要的计算逻辑。MapReduce对数据的读写是批量连续的,而不是随机的;而大数据技术的另一体系NoSQL则大都只是提供了海量数据的分布式存储与基于索引的快速读取机制,为使用者提供的大多是编程API(虽然也有类SQL的语言,但其本质并不是完整的SQL体系)。

由于SQL体系的复杂性与处理逻辑的整体关联性,导致数据库一体机在扩展性上是还是远不及大数据技术的,虽然数据库一体机已经在很大程度上改善了传统关系数据库垂直扩展的瓶颈。MapReduce与NoSQL的单个集群往往可以扩展到数千个节点,而数据库一体机如果在硬件上扩展到这个规模,从软件上来讲,已经是没有意义了!

特征表现

以上软件体系的本质不同,导致两者有不同的特征表现:

数据库一体机往往适合于存储关系复杂的数据模型(如企业核心业务数据),并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算,以及复杂的BI计算;

大数据技术则更适合于存储较简单的数据模型,并且可以不受模式的约束。因而其可存储管理的数据类型更丰富;大数据技术同时适合进行一致性与事务性要求不高的计算(主要是指NoSQL的查询操作),以及对超大规模海量数据的、批量的分布式并行计算(MapReduce)。

需要注意的是,NoSQL数据库由于摆脱了繁琐的SQL体系约束,其查询与插入的效率比数据库一体机要更高;大数据技术比数据库一体机所能处理的数据量也要相对大些,这主要是因为其集群可以扩展得更大。

本质描述

本质上讲,MapReduce是对海量数据分布式计算领域的一个重要创新,但也只是在适合于并行处理的大规模批量处理问题上更占优势,而对些例如复杂Join的操作,则不一定有优势;

而NoSQL本质上可以看做是对传统关系数据库进行简化的结果:由于NoSQL数据库的设计思想只是具备了关系数据库中的主索引特征,并加了上分布存储,而将SQL体系中那些对“某些特殊问题”来讲并不需要的东西统统不要了,因而达到了更优秀的效率、扩展性与灵活性。

于是可以很明显地看到,在实践中,有很多问题(特别是流行的大数据问题),关系数据库中的许多设计并不需要,这才是NoSQL出现的根本立足点。

关系与协作

于是,结论应该是:大数据技术与数据库一体机技术应该是相辅相成的,而不是互相替代的。它们针对不同的应用场景设计,并相互补充与合作。具体来讲:

大数据技术可以:

1. 处理企业内海量的、模型简单、类型多样的非结构化与半结构化数据(如社会化数据、各种日志甚至图片、视频等),其处理结果可以被直接使用;

2.  以上处理结果也同时可以被当成是新的输入存储到企业级数据仓库中,这时大数据技术相当于是面向大数据源的新的ETL手段;

3.  针对海量数据的、不太适合SQL操作的存储或计算。

而数据库一体机技术则应该还是做为企业数据仓库的主流技术,至少在很长一段时间内应该是这样,它存储与计算最主要的、有重大价值的企业关键业务数据。

一些误区

有人认为:虽然大数据技术的原始开源状态还不适合充当企业级数据仓库主平台的要求,但经过开发、补充,应该是可以的。

其实这个观点没有错。而实际上,对开源的大数据技术进行补充开发,所要补充的正是大数据技术在原始设计上就去除了的那些本属于关系数据库体系的东西,如果这样做:

1.  开发量有多大难以估计;

2.  一个企业难以像专业的数据库厂商那样实现这些工作的理论化、产品化与体系化;

3.  从纯技术上讲,当然开发什么都有可能!但您的企业如果这样做,是准备开发另一个商业化的关系数据库吗?

很明显,这违反了大数据技术的设计初衷!

大数据技术 vs 数据库一体机[转]

时间: 2024-10-13 10:27:07

大数据技术 vs 数据库一体机[转]的相关文章

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2016)将在北京新云南皇冠假日酒店隆重举办. 图片描述 中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(Hadoop in China,HiC).从2008年仅60余人参加的技术沙龙到当下数千人的技术盛宴,目前已成为国内最具影响力.规模

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要

周鸿祎:以大数据技术对抗大数据平台安全威胁

1月,中国大陆境内所有通用顶级域(.com/.net/.org等)解析出现问题,所有相关域名均被指向一个位于美国的IP地址(65.49.2.178),导致数千万网民在数小时内无法访问网站. 4月,OpenSSL"心脏出血(Heartbleed)"重大安全漏洞被曝光,这一漏洞让黑客能够读取服务器系统的运行内存.有业内人士利用该漏洞在某知名电商网站上测试时,成功获得多位用户的账号及密码,并成功登陆网站. 9月,"iCloud艳照门"事件爆发,数百张好莱坞女演员不雅照在网

2015年主宰大数据技术的五大发展趋势

大数据技术自出现以来以一种异常火热的速度发展着,且种种迹象表明这种发展趋势在2015年将会继续持续下去.MapR联合创始人兼首席执行官John Schroeder预测,2015年将有五大发展趋势主导大数据技术,MapR是致力于Hadoop分发版的专业公司. 仅仅几年时间里,大数据技术就从之前的炒作阶段逐渐发展成为新数字时代中的核心技术之一.2014年,企业内部的大数据计划慢慢地从测试阶段走向研发和生产.Schroeder表示,2015年,企业的大数据技术将会进一步推进,并向前发展,甚至会产生更多

大数据技术原理与应用——大数据处理架构Hadoop

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进

大数据学习路线图 让你精准掌握大数据技术学习?

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java