深度:Hadoop对Spark五大维度正面比拼报告!

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?
  如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗?

深度:Hadoop对Spark五大维度正面比拼报告!
  为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件系统中的Spark处理数据一起工作。但是,它们都是独立个体,每一个体都有自己的优点和缺点以及特定的商业案例。
  本文将从以下几个角度对Spark和Hadoop进行对比:体系结构,性能,成本,安全性和机器学习。
  什么是Hadoop?
  Hadoop在2006年开始成为雅虎项目,随后成为顶级的Apache开源项目。它是一种通用的分布式处理形式,具有多个组件:
  HDFS(分布式文件系统),它将文件以Hadoop本机格式存储,并在集群中并行化;
  YARN,协调应用程序运行时的调度程序;
  MapReduce,实际并行处理数据的算法。
  Hadoop使用Java搭建,可通过多种编程语言访问,用于通过Thrift客户端编写MapReduce代码(包括Python)。
  除了这些基本组件外,Hadoop还包括:
  Sqoop,它将关系数据移入HDFS;
  Hive,一种类似SQL的接口,允许用户在HDFS上运行查询;
  Mahout,机器学习。
  除了将HDFS用于文件存储之外,Hadoop现在还可以配置为使用S3存储桶或Azure blob作为输入。
  它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。
  什么是Spark?
  Spark是一个较新的项目,最初于2012年在加州大学伯克利分校的AMPLab开发。它也是一个顶级Apache项目,专注于在群集中并行处理数据,但最大的区别在于它在内存中运行。
  鉴于Hadoop读取和写入文件到HDFS,Spark使用称为RDD,弹性分布式数据集的概念处理RAM中的数据。 Spark可以以独立模式运行,Hadoop集群可用作数据源,也可以与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。
  Spark是围绕Spark Core搭建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。有几个库在Spark Core上运行,包括Spark SQL,它允许在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于图形问题的GraphX以及允许连续流式传输的流式传输记录数据。
  Spark有几个API。原始界面是用Scala编写的,基于数据科学家的大量使用,还添加了Python和R端点。 Java是编写Spark作业的另一种选择。
  Databricks由也Spark创始人Matei Zaharia创建的,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务
  1. 架构
  Hadoop
  首先,所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子,每个块在整个群集中被复制指定的次数。该信息被传递给NameNode,它跟踪整个集群中的所有内容。 NameNode将这些文件分配给一些数据节点,然后将这些文件写入其中。 2012年实施高可用性,允许NameNode故障转移到备份节点上,以跟踪群集中的所有文件。
  MapReduce算法位于HDFS之上,由JobTracker组成。一旦应用程序以其中一种语言编写,Hadoop接受JobTracker,然后分配工作(可包括计算单词和清理日志文件的任何内容),以便在存储在Hive仓库中的数据之上运行HiveQL查询)到侦听其他节点的TaskTracker。
  YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘。
  Spark
  除了计算在内存中执行并在那里存储直到用户积极保存它们之外,Spark处理的工作方式与Hadoop类似。最初,Spark从HDFS,S3或其他文件存储中的文件读取到名为SparkContext的已建立机制。除此之外,Spark创建了一个名为RDD或弹性分布式数据集的结构,它表示一组可并行操作的元素的不可变集合。
  随着RDD和相关操作的创建,Spark还创建了一个DAG或有向无环图,以便可视化DAG中的操作顺序和操作之间的关系。每个DAG都有阶段和步骤;通过这种方式,它与SQL中的解释计划类似。
  您可以对RDD执行转换,中间步骤,操作或最终步骤。给定转换的结果进入DAG,但不会保留到磁盘,但操作的结果会将内存中的所有数据保留到磁盘。
  Spark中的一个新抽象是DataFrames,它是在Spark 2.0中作为RDD的配套接口开发的。这两者非常相似,但DataFrames将数据组织成命名列,类似于Python的熊猫或R包。这使得它们比RDD更方便用户,RDD没有类似的一系列列级标题引用。 SparkSQL还允许用户像关系数据存储中的SQL表一样查询DataFrame。
  2. 性能
  发现Spark在内存中运行速度快100倍,在磁盘上运行速度快10倍。在十分之一的机器上,它也被用于对100 TB数据进行排序,比Hadoop MapReduce快3倍。特别发现Spark在机器学习应用中更快,例如朴素贝叶斯和k-means。
  由处理速度衡量的Spark性能已经发现比Hadoop更优,原因如下:
  每次运行MapReduce任务的选定部分时,Spark都不会受到输入输出问题的束缚。事实证明,应用程序的速度要快得多
  Spark的DAG可以在步骤之间进行优化。 Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。
  但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的用例,Hadoop被认为是更高效的系统。
  3. 成本
  Spark和Hadoop都可以作为开源Apache项目免费获得,这意味着您可以以零安装成本运行它。但是,重要的是要考虑总体拥有成本,其中包括维护,硬件和软件购买以及雇用了解群集管理的团队。内部安装的一般经验法则是Hadoop需要更多的磁盘内存,而Spark需要更多的内存,这意味着设置Spark集群可能会更加昂贵。此外,由于Spark是较新的系统,因此它的专家更为稀少,而且成本更高。另一种选择是使用供应商进行安装,例如Cloudera for Hadoop或Spark for DataBricks,或使用AWS在云中运行EMR / Mapreduce流程。
  由于Hadoop和Spark是串联运行的,即使在配置为在安装Spark的情况下运行的EMR实例上,也可以将提取定价比较分离出来。对于非常高级别的比较,假设您为Hadoop选择计算优化的EMR群集,最小实例c4.large的成本为每小时0.026美元。 Spark最小的内存优化集群每小时成本为0.067美元。因此,Spark每小时更昂贵,但对计算时间进行优化,类似的任务应该在Spark集群上花费更少的时间。
  4. 安全性
  Hadoop具有高度容错性,因为它旨在跨多个节点复制数据。每个文件都被分割成块,并在许多机器上复制无数次,以确保如果单台机器停机,可以从别处的其他块重建文件。
  Spark的容错主要是通过RDD操作来实现的。最初,静态数据存储在HDFS中,通过Hadoop的体系结构进行容错。随着RDD的建立,谱系也是如此,它记住了数据集是如何构建的,并且由于它是不可变的,如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,如果执行器和驱动程序之间的节点或通信失败,通常可能会损坏数据。
  Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统,是另一个专门用于HDFS级别安全性的项目。
  Spark的安全模型目前很少,但允许通过共享密钥进行身份验证。
  5. 机器学习
  Hadoop使用Mahout来处理数据。 Mahout包括集群,分类和基于批处理的协作过滤,所有这些都在MapReduce之上运行。目前正在逐步推出支持Scala支持的DSL语言Samsara,允许用户进行内存和代数操作,并允许用户编写自己的算法。
  Spark有一个机器学习库MLLib,用于内存迭代机器学习应用程序。它可用于Java,Scala,Python或R,包括分类和回归,以及通过超参数调整构建机器学习管道的能力。
  总结
  那么它是Hadoop还是Spark?这些系统是目前市场上处理数据最重要的两个分布式系统。 Hadoop主要用于使用MapReduce范例的大规模磁盘操作,而Spark则是一种更灵活,但成本更高的内存处理架构。两者都是Apache的顶级项目,经常一起使用,并且有相似之处,但在决定使用它们时,了解每个项目的特征是非常重要的。

原文地址:http://blog.51cto.com/14024441/2307071

时间: 2024-08-02 06:41:51

深度:Hadoop对Spark五大维度正面比拼报告!的相关文章

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网.纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截.车辆轨迹.交通流量分析研判.重点车辆布控.交通违法行为甄别查处及侦破涉车案件等应用.在侦破肇事逃逸案件.查处涉车违法行为.治安防控以及反恐维稳等方面发挥着重要作用. 随着联网单位和接入卡口的不断增加,各省市区部署的机动车缉查布控系统积聚了海量的过车数据.截至目前,全国32个省(区.

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(3天)

Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. Yarn是目前公认的最佳的分布式集群资源管理框架: Mahout是目前数据挖掘领域的王者:        工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出: “2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入.在该计划支持下,加州大学伯克利分校开发了完整

Hadoop、Spark、HBase与Redis的适用性讨论(全文)

最近在网上又看到有关于Hadoop适用性的讨论[1].想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种"纷繁复杂"的大数据技术的适用性的问题.这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop.Spark.HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很"狭义"的Hadoop,即在HDFS上直接跑MapReduce的技术,下同). 我这几年实际研究和

2分钟读懂Hadoop和Spark的异同

谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题?下面不妨跟我一块看下它们究竟有什么异同. 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

PageRank在Hadoop和spark下的实现以及对比

关于PageRank的地位,不必多说. 主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如 A:B,C,D B:A,D C:AD:B,C 由这个我们可以得到网页的转移矩阵 A    B    C    D A  0    1/2  1    0 B 1/3   0    0    0 C 1/3  1/2  0    0 D 1/3  0     0    1/2 Aij表示网页j到网页i的转移概率.假设起始状态每个用户对ABCD四个网站的点击概率相同都是0.25,那么各个网站第一次

大数据时代到底Hadoop和Spark谁是王者!

在现在这个大数据时代,Hadoop和Spark是最潮流的两个词汇,Hadoop是一种分布式计算框架,由Google提出,主要用于搜索领域,解决海量数据的计算问题,Hadoop中的MapReduce包括两个阶段:Mapper阶段和Reducer阶段,用户只需要实现map函数和reduce函数即可实现分布式计算,非常简单.而近几年Spark新兴框架的产生,以不可挡之势席卷中国,其核心内部结构RDD以超强的弹性机制更加的引人注目!越来越多的人认为Spark终有一天要取代Hadoop,但是事实究竟如何呢