Hadoop的辉煌还能延续多久?

Hadoop的辉煌还能延续多久?

摘要:Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一时难以动摇。

谷歌文件系统与MapReduce

我们先来探讨一下Hadoop的灵魂——MapReduce。面对数据的爆炸性增长,谷歌的工程师Jeff Dean和Sanjay Ghemawat架构并发布了两个开创性的系统:谷歌文件系统(GFS)和谷歌MapReduce(GMR)。前者是一个出色而实用的解决方案-使用常规的硬件扩展并管理数据,后者同样辉煌,造就了一个适用于大规模并行处理的计算框架。

谷歌MapReduce(GMR)为普通开发者/用户进行大数据处理提供了简易的方式,并使之快速、具备容错性。谷歌文件系统(GFS)和谷歌MapReduce(GMR)也为谷歌搜索引擎对网页进行抓取、分析提供了核心动力。

再回头看看开源世界中的Hadoop,Apache Hadoop的分布式文件系统(HDFS)和Hadoop MapReduce完全是谷歌文件系统(GFS)和谷歌MapReduce(GMR)的开源实现。Hadoop项目已经发展成为一个生态系统,并触及了大数据领域的方方面面。但从根本上,它的核心是MapReduce。

Hadoop是否可以赶超谷歌?

一个有趣的现象是,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。事实上,我们谈论的这些技术早就不是新技术了,MapReduce也不例外。

我希望在后Hadoop时代下面这些技术能够更具竞争性。尽管许多Apache社区的项目和商业化Hadoop项目都非常活跃,并以来自HBase、Hive和下一代MapReduce(YARN)的技术不断完善着Hadoop体系,我依然认为,Hadoop核心(HDFS和Zookeeper)需要脱离MapReduce并以全新的架构增强自己的竞争力,真正与谷歌技术一较高下。

过滤不断增长的索引,分析不断变化的数据集。Hadoop的伟大之处在于,它一旦开始运行,就会飞速地分析你的数据。尽管如此,在每次分析数据之前,即添加、更改或删除数据之后,我们都必须将整个数据集进行流式处理。这意味着,随着数据集的膨胀,分析时间也会随之增加,且不可预期。

那么,谷歌又是怎么做到搜索结果越来越实时呈现呢?一个名为Percolator的增量处理引擎取代了谷歌MapReduce(GMR)。通过对新建、更改和已删除文档的处理,并使用二级索引进行高效的分类、查询,谷歌能够显著地降低实现其目标的时间。

Percolator的作者写道:“将索引系统转化为一个增量系统……文档平均处理延迟的因子降低到了现在的100。”这句话的意思是,索引Web上新内容的速度比之前MapReduce系统快了100倍。

谷歌Dremel即时数据分析解决方案

谷歌和Hadoop社区曾致力于构建基于MapReduce的易用性即时数据分析工具,如谷歌的并行处理语言Sawzall,Apache Pig和Hive。但对熟知SQL的人们而言,他们忽略了一个基本事实-构建MapReduce的目标就在于管理数据处理工作。它的核心能力在于工作流管理,而不是即时数据分析。

与之形成鲜明对比的是,很多BI或数据分析查询基本上都要求即时、交互和低延迟。这意味着,使用Hadoop不仅需要规划流程图,而且需要为许多查询分析裁减不必要的工作流。即便如此,我们也要花费数分钟等待工作开始,然后花费数小时等待工作流完成,并且这个过程也非常不利于交互式体验。因此,谷歌研发了Dremel予以应对。Dremel是Google 的“交互式”数据分析系统,可以在几秒钟内处理PB级别的数据,并能轻松应对即时查询。

Google Dremel的设计特点:

Dremel是一个可扩展的大型系统。在一个PB级别的数据集上面,将任务缩短到秒级,无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下,那么在1S内处理1TB数据,意味着至少需要有1万个磁盘的并发读! Google一向是用廉价机器办大事的好手。但是机器越多,出问题概率越大,如此大的集群规模,需要有足够的容错考虑,保证整个分析的速度不被集群中的个别节点影响。

Dremel是MapReduce的补充。和MapReduce一样,Dremel也需要GFS这样的文件系统作为存储层。在设计之初,Dremel并非是MapReduce的替代品,它只是可以执行非常快的分析,在使用的时候,常常用它来处理MapReduce的结果集或者用来建立分析原型。

Dremel的数据模型是嵌套的。互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型,这个数据模型至关重要。Dremel支持一个嵌套的数据模型,类似于JSON。而传统的关系模型,由于不可避免的有大量的JOIN操作,在处理如此大规模的数据的时候,往往是有心无力的。

Dremel中的数据是采用列式存储的。使用列式存储,分析的时候,可以只扫描需要的那部分数据的时候,减少CPU和磁盘的访问量。同时列式存储是压缩友好的,使用压缩,可以综合CPU和磁盘,发挥最大的效能。

Dremel结合了Web搜索和并行DBMS的技术。Dremel借鉴了Web搜索中的“查询树”的概念,将一个相对巨大复杂的查询,分割成较小较简单的查询。大事化小,小事化了,能并发的在大量节点上跑。另外,和并行DBMS类似,Dremel可以提供了一个SQL-like的接口,就像Hive和Pig那样。

谷歌的图数据计算框架Pregel

谷歌MapReduce是专门为抓取、分析世界上最庞大的图形架构-internet而设计的,但针对大规模图算法(如图遍历(BFS)、PageRank,最短路径(SSSP)等)的计算则显得效率低下。因此,谷歌构建了Pregel。

Pregel给人的印象非常深刻。Pregel不仅能高效执行SSSP或PageRank算法,更令人惊讶的是,公布的数据显示Pregel处理一个有着几十亿节点、上万亿条边的图,只需数分钟即可完成,其执行时间随着图的大小呈线性增长。

Pregel基于BSP模型,就是“计算”-“通信”-“同步”的模式:

  • 输入输出为有向图
  • 分成超步
  • 以节点为中心计算,超步内每个节点执行自己的任务,执行节点的顺序不确定
  • 两个超步之间是通信阶段

在Pregel中,以节点为中心计算。Step 0时每节点都活动着,每个节点主动“给停止投票”进入不活动状态。如果接收到消息,则激活。没有活动节点和消息时,整个算法结束。容错是通过检查点来做的。在每个超步开始的时候,对主从节点分别备份。

总结

尽管当前大数据技术的核心依然是Hadoop,但谷歌却已经为我们展现了许多更先进的大数据技术。谷歌开发这些技术的本意并不是要立刻抛弃掉MapReduce,但毫无疑问这是未来大数据技术的趋势。尽管已经出现了上述大数据技术的开源实现,但我们不禁要问,Hadoop的辉煌还能延续多久?(张志平/编译)

原文链接:Why the days are numbered for hadoop as we know it

Hadoop的辉煌还能延续多久?,布布扣,bubuko.com

时间: 2024-10-07 09:10:35

Hadoop的辉煌还能延续多久?的相关文章

沦为“作秀”的互联网创业,还能烧多久?

近几年来,随着房地产等传统实业的不景气,创业者纷纷将目光对准了互联网领域.而在互联网+等概念的流行.利好政策的支持.投资市场的看好等多重因素影响下,互联网创业不断展现火爆态势.不仅创业者人数飙升,且融资金额总数等也接连创下新高.然而,这一切从去年下半年至今,形势已经急转直下. 除了资本市场进入寒冬期以外,最重要的是互联网创业已经沦为"作秀"的秀场.只有噱头没有实质的互联网创业项目.吹嘘为下一个"马云"的创业者.不断参加各种名义的互联网大会--这样的互联网创业,还能烧

小黄车ofo法人被限制出境,它究竟还能撑多久?

因为季节的原因,现在正是骑车的好时候,而且北京也开通了一条自行车的专用路.但就是在这么好的时候,我们发现,路边的小黄车却越来越少了,而且它的麻烦还不断! ofo法人被限制出境 6月12日消息,据上海市高级人民法院网信息显示,因东峡大通(北京)管理咨询有限公司不履行法律文书确定的义务,法院已依法限制其影响债务履行的直接责任人陈正江出境. 小黄车越来越少 要退的押金却越来越多 他还能挺多久? 上海市高级人民法院网截图 公开资料显示,东峡大通(北京)管理咨询有限公司系ofo小黄车的运营主体.去年10月

Android 还可以走多久?

最近,有位知识星球的球友问我这么一个问题: 我做 Android 开发五年多时间了,但是最近总是很焦虑,看着人工智能越来越火,很担心 Android 要不行了,想问下,我现在要转行么?Android 还可以走多久? 这个问题我觉得还蛮有代表性的,今天就姑且给大家谈谈这个话题. 毫无疑问,人工智能是下个十年要进入的时代,而且现在已经有蓄势待发的意思,但是人工智能跟 Android 开发完全不冲突,人工智能它是一门技术与科学,它可以应用于各行各业,方方面面,同样,它也可以应用于手机端,这两年也有不少

移动游戏还能活多久?

近几年的移动游戏虽然风靡全球,但是与传统的主机游戏和PC游戏相比,生命周期往往比较短暂.就算是过去一年成绩优异的<糖果粉碎传奇>也不能幸免.那么,是什么原因导致这些手机游戏不能长存呢? 今天,Xsolla将和一起,探讨手机游戏的兴衰原因. 也许游戏开发就像电影<巨蟒与圣杯>中说的: "大家都说我在沼泽上盖城堡很愚蠢,但我坚持那样做,我要证明给他们看.第一座城堡沉入沼泽,于是我建了第二座:第二座也沉入沼泽,我又建了第三座.它同样崩塌啦.但第四座城堡活了下来,到现在还屹立不倒

论移动互联网测试还能活火多久

? 群里说要讨论下移动互联网目前的测试情况,我来说下这几年的变化和情况把.其实你们自己感觉就可以感觉的出来是不是有前景. 我的观点是"移动互联网肯定是会火的,而且肯定会继续火下去.但是移动互联网的测试未必可以一直那么吃香下去".这点首先大家要明白. 移动的测试无论是app或者os,其实都是在老路上走.我们从instrumentation和instruments入手来看,两者分别提供了很多的类和工具来辅助工具. 首先我们先来论第一点,测试真的物尽其用了么?答案肯定是蛋疼的没有. 我们来看

被马云95亿美金收购的饿了么还能活多久?

前天,阿里巴巴95美金全资收购饿了么搞出了一个大新闻.这个事情分析的已经很多,何玺也谈谈我的看法. 一.阿里巴巴收购饿了么为了新零售.对抗美团点评.为了外卖骑士军团? 有人说,阿里巴巴收购饿了么是为了新零售,为了对抗美团点评,为了外卖骑士军团.理由如下: 新零售,这是马云这两年主推的战略之一.在零售领域的布局上,这些年马云一直是买买买的状态,买下银泰商业,入股三江购物.新华百联集团等进行战略合作,通过零售通接入了屈臣氏.周黑鸭等零售业态,开设盒马鲜生.无人店等,大力进军零售业.截止目前,阿里巴巴

最新!从内斗到宫斗,快鹿还能挺多久

7月11日,上海快鹿投资(集团)有限公司在其官方网站发布标题为<上海快鹿投资(集团)有限公司及其相关公司在外应收债权追讨名单(第一批)>的公告,此消息一出,立马引起了社会的轰动. 7月12日,名单上公布的被追讨人汪国锋发出声明,指明快鹿恶意诽谤. 7月12日,麒麟网总裁庞洪通过公司发表声明,斥责快鹿的卑鄙行为. 7月13日,大中华金融执行董事.行政总裁.董事局主席刘克泉也向公众和媒体发表声明,指出快鹿集团在兑付无门,面临清算的情况下,故意歪曲事实,恶意扭曲舆论导向,肆意人身攻击,其目的就是为了

华为抛弃WP系统 微软还能独行多久

对于一种新鲜事物来说,处于弱势的萌芽状态并不可怕,可怕的是没有充足的养分供其成长起来.如果一直是弱不禁风的样子,迟早会被"弱肉强食",最终被淘汰出局.Windows Phone手机现在就面临着这种尴尬,相比Android手机和iPhone,WP手机一向处于弱势.但其困境并不能完全归结于系统本身原因,微软在WP系统愈发小众的趋势中起着推波助澜的作用. Say byebye 华为不再推出WP手机 近年凭借荣耀系列.Mate 7.P7等机型,成功成为智能手机市场中流砥柱的华为,已经将注意力完

web前端还能火多久?现在学来得及吗?

前端是个最近几年火起来的工种,而且持续火热中,有个词叫水涨船高,来的人多了,竞争多了,标准也就提高了.现在对前端工程师的要求跟当年前已经不能同日而语了.当然了,所谓的趋势,不是一天两天就到来的,它是未来的一个技术方向,我们之所以关注趋势,是要关注变化,技术的发展与普及不是一日之功,一定是慢慢过渡的,但是你能够比其他人提前看到方向,真正的市场到来的时候,你就可以提前做好准备,提前发掘机会.首先,我们从基础来看,在对2019前端开发如何进阶,提升自己,再做更深一层讲解. 1 . 基础技术 前端的三大