不只是Hadoop:大数据技术的未来道路

在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林?

作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子。然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉。

那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步。伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm、Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远、转而踏上了一条真正通往实 时性未来的发展道路。

批量并非

Cloudera公司的Doug Cutting是一位极为睿智的技术人员,同时也是一位高产的开源开发者。Hadoop、Lucene以及众多其它大数据事务领域的根本性工具都有他的参与。

尽管Cutting坦言实时流技术的重要性毋庸置疑,但他并不在乎Hadoop这一主要面向批量处理任务的方案,并在与我们的采访邮件当中指出:

这并不是说Hadoop的架构设计不应该针对批量处理,因为批量处理确实非常重要。事实上,批量处理、特别是 MapReduce下的批量处理可谓最理想的起步方案,因为其相对容易实现而且具有重要的实际价值。在Hadoop诞生之前,我们根本没办法利用开源软件 在商用硬件基础上存储并处理PB级别的数据。Hadoop的MapReduce帮助技术人员在资源容量领域迈进了重要的一步。

我们很难准确衡量大数据的商品化发展趋势对于整个世界的运作到底起到了怎样重要的作用。在Hadoop诞生之前面,我们面临着无数存储与分析容量方面的难题。在这种情况下,Hadoop让我们以可承受的使用成本拥有了这种关键性能力。

总体而言,Hadoop是大数据民主化进程——或者说“走入寻常企业家”的重要前提。

向数据流处理的转变?

不过要利用大数据获取实际效益仍然非常困难。正如DataStax公司首席倡导者Patrick McFadin在一次采访中所言,从企业数据当中获取实际价值并不像很多人宣扬的那样简便:

我们都听说过PB级别数据在存储与分析领域的投资回报问题。谷歌、雅虎以及Facebook确实在投资回报方面交出了理想的答卷,但遗憾的是众多企业仍然找不到充分分析并运用全部数据的方式。第一:收集全部数据。第二:……第三:利润!

在数据收集与构成利润之间存在着一系列步骤,而这些步骤实现起来确实相当麻烦。随着企业开始寻求提升自身的数据实时分析能力,新技术方案的出炉逐渐使其理想变成了现实。

McFadin对这套新型大数据堆栈中的关键性元素进行了深入剖析。首先,他表示其中应包含一套查询系统,最典型的代表包括Kafka、 RabbitMQ以及Kinesis。接下来,企业还需要拥有一套流处理层,其中可能包含Storm、Spark Streaming或者Samza。在调整存储方面,企业通常会选择Cassandra、HBase、MongoDB或者以MySQL为代表的关键型数据 库。

最值得关注的是批量处理仍然适用于哪些领域。根据McFadin的观点,“批量机制目前在处理领域仍然极具实用性”——具 体而言,类似于汇总与深层分析。批量处理与实时技术的概念合并已经构建起所谓“Lambda架构”,其中涉及到三种组成元素的协同作用:批处理、速度以及 服务交付。

换句话来说,批量处理仍然拥有自己的重要意义。

将批量机制扔进历史的垃圾箱

但并不是每个人都认同这种观点。举例来说,Zoomdata公司CEO兼联合创始人Justin Langseth将Lambda定性为一种“不必要的妥协”,并在采访中告诉我们,“目前已经出现了能够从来源处处理数据、传输数据、存储数据并进行数据 分析及可视化处理的端到端工具,”而且完全无需涉及批量化机制。

根据他的观点,批量处理机制是特定时代下不可避免的错误,一种旧日大数据遗留下的废弃成果:

实时数据显然最好以流方式加以处理。但企业也完全能够将历史数据纳入流处理范畴,正如我们的DVR能够以流媒体方式将《乱 世佳人》或者上周的《美国偶像》传输到用户的电视上。这种差别非常重要,因为我们Zoomdata公司认为以流方式进行数据分析能够带来可观的可扩展能力 与灵活性提升,而且无需考虑数据对象到底属于实时数据还是历史数据。

不过除了可扩展能力与灵活性收益之外,将批量机制从大数据流程当中移除还能起到显著的简化效果。正如Langseth所言,“这能极大简化大数据架构,因为使用者不必再为批量窗口、从批量流程故障中进行数据恢复以及其它种种麻烦事忧心。”

双方为何不能和谐相处?

短时间内恐怕还无法实现,Cutting表示。

相对于彻底将Hadoop等旧有技术方案彻底扔进垃圾堆,Cutting更倾向于将世界看成一个“流机 制确实不错,但Cloudera的Enterprise Data Hub同样值得关注”式的和谐生态圈。事实上,他同时补充称,“我认为未来不会出现指向流机制的显著转变。相反,流机制将加入到处理选项集合当中,并供大 家在合适的情况下作出选择。”

更有趣的是,Cutting认为大数据在创新领域的“大爆炸”式增长——坦率地讲,行动较为迟缓的企业IT部门已经跟不上这种突飞猛进的节奏——已经逐渐止步,而相关业界将提供多种良好的方式解决由此带来的技术难题:

我认为像Spark这样的关键性技术方案已经不会在整体堆栈当中频繁出现,因此随着时间的推移,我们将 建立起一套标准化工具集合,从而帮助大部分用户从其大数据应用程序当中获得理想的容量水平。Hadoop的诞生引燃了大数据项目寒武纪大爆发的点火索,但 我们可能会很快进入一段趋于正常的演化周期,并将这些技术方案推广到更多行业当中。

DataStax公司社区经理Scott Hirleman也对此表示赞同:“批机制不会被彻底抛弃,因为包含大量数据的超大规模分析场景将一直存在下去。”他承认“流分析机制将引发业界的高度关注”,但同时坚持认为这种趋势会给各类大数据规划带来怎样的影响“目前还言之过早”。

简而言之,流分析的主要意义在于“补充”而非“淘汰”。其对于Hadoop等面向批量机制的系统而言是一种极好的补充,而不会将这位开启大数据时代的元老直接送进养老院。

时间: 2024-10-15 05:51:53

不只是Hadoop:大数据技术的未来道路的相关文章

超人学院Hadoop大数据技术分享

超人学院Hadoop大数据技术分享 Docker从入门到实践 http://yunpan.cn/cQJeEIPQxDzh5 (提取码:a4e9) 更多精彩内容请关注:http://bbs.superwu.cn 关注超人学院微信二维码:

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了

《Hadoop大数据技术开发实战》新书上线

当今互联网已进入大数据时代,大数据技术已广泛应用于金融.医疗.教育.电信.政府等领域.各行各业每天都在产生大量的数据,数据计量单位已从B.KB.MB.GB.TB发展到PB.EB.ZB.YB甚至BB.NB.DB.预计未来几年,全球数据将呈爆炸式增长.谷歌.阿里巴巴.百度.京东等互联网公司都急需掌握大数据技术的人才,而大数据相关人才却出现了供不应求的状况. Hadoop作为大数据生态系统中的核心框架,专为离线和大规模数据处理而设计.Hadoop的核心组成HDFS为海量数据提供了分布式存储:MapRe

超人学院Hadoop大数据技术资源分享

http://bbs.superwu.cn/forum.php?mod=viewthread&tid=807&fromuid=645 很多其它精彩内容请关注:http://bbs.superwu.cn 关注超人学院微信二维码:

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

Hadoop大数据视频教程_零基础实战培训(新增)

Hadoop大数据零基础高端实战培训系列配文本挖掘项目课程分类:大数据适合人群:初级课时数量:230课时+90课程更新程度:完成用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询qq:1840215592 大数据Hadoop实战视频教程就从最基础的Java语法.数据库.Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库.HBase.Hive.Pig.ZooKeeper.Chukwa.Hado

Hadoop大数据零基础高端实战培训(新增内容)

Hadoop大数据零基础高端实战培训系列配文本挖掘项目课程分类:大数据适合人群:初级课时数量:230课时+90课程更新程度:完成用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询qq:1840215592 大数据Hadoop实战视频教程就从最基础的Java语法.数据库.Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库.HBase.Hive.Pig.ZooKeeper.Chukwa.Hado

常用的大数据技术有哪些?

大数据技术为决策提供依据,在政府.企业.科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国.美国以及欧盟等都已将大数据列入国家发展战略,微软.谷歌.百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数据学习QQ群:716581014 大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储.数据筛选.算法分析与预测.数据分析结果展示等,为做出正确决策提供依据,其数据级别通

未来五年内将重塑大数据技术的五种趋势

请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop.关于大数据的真正问题在于,企业用户将如何使用Hadoop.我们的系统到底能在智能化道路上走多远.我们又该如何保证这一切都处于控制之下. 过去几年当中,大数据技术已经迎来长足发展:从一个乐观积极的流行词汇变成人见人恨的疑难杂症,关注重点也由纯粹的数据规模转向对类型及速度的追 求.所谓“大数据”及其相关技术在经历了高度重视.详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异.然而时至今日,我们正站在历史的 重要