对于spark以及hadoop的几个疑问(转)

  • Hadoop是啥?spark是啥?
  • spark能完全取代Hadoop吗?
  • Hadoop和Spark属于哪种计算计算模型(实时计算、离线计算)?
  • 学习Hadoop和spark,哪门语言好?
  • 哪里能找到比较全的学习资料?

1 Hadoop是啥?spark是啥?

(1)先来了解下Hadoop历史渊源

Doug Cutting是Apache Lucene创始人, Apache Nutch项目开始于2002年,Apache Nutch是Apache Lucene项目的一部分。2005年Nutch所有主要算法均完成移植,用MapReduce和NDFS来运行。2006年2月,Nutch将MapReduce和NDFS移出Nutch形成Lucene一个子项目,命名Hadoop。

Hadoop不是缩写,而是虚构名。项目创建者Doug Cutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

(2)狭义的Hadoop

个人认为,狭义的Hadoop指Apache下Hadoop子项目,该项目由以下模块组成:

  • Hadoop Common: 一系列组件和接口,用于分布式文件系统和通用I/O
  • Hadoop Distributed File System (HDFS?): 分布式文件系统
  • Hadoop YARN: 一个任务调调和资源管理框架
  • Hadoop MapReduce: 分布式数据处理编程模型,用于大规模数据集并行运算

        狭义的Hadoop主要解决三个问题,提供HDFS解决分布式存储问题,提供YARN解决任务调度和资源管理问题,提供一种编程模型,让开发者可以进来编写代码做离线大数据处理。

(3)广义的Hadoop

个人认为,广义的Hadoop指整个Hadoop生态圈,生态圈中包含各个子项目,每个子项目为了解决某种场合问题而生,主要组成如下图:

  • Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
  • Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  • Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
  • Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  • Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  • Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
  • Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
  • Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身
  • Apache Avro: 是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制
  • Apache Ambari: 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。
  • Apache Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。
  • Apache Hama: 是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
  • Apache Flume: 是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。
  • Apache Giraph: 是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
  • Apache Oozie: 是一个工作流引擎服务器, 用于管理和协调运行在Hadoop平台上(HDFS、Pig和MapReduce)的任务。
  • Apache Crunch: 是基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库
  • Apache Whirr: 是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务。
  • Apache Bigtop: 是一个对Hadoop及其周边生态进行打包,分发和测试的工具。
  • Apache HCatalog: 是基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。
  • Cloudera Hue: 是一个基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

从广义的角度来讲,spark是Hadoop生态圈中的一个子项目。

(4)spark历史渊源

百度百科 写道

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说, Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
    尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

(5)spark目前项目组成

  • Spark Streaming:实时流式数据处理,与之类似的有storm
  • Spark SQL, DataFrames and Datasets:SQL化处理一切数据,与之类似的有hive
  • Machine Learning Library:机器学习
  • GraphX:图形可视化
  • Bagel on Spark:谷歌公司Bagel图形处理技术,如何运行于spark
  • R on Spark:R语言在spark上运用

2 spark能完全取代Hadoop吗?

个人认为,spark目前不能完全取代Hadoop,理由如下:Haoop中的分布式文件存储是spark没有的,目前能站得住脚的就只有这点了。

spark的出现是有原因的,这个得从Hadoop的编程模型mapreduce说起,mapreduce中间结果首先存储到磁盘文件,大量的IO读写会影响整个计算的耗时,而spark中间结果首先是基于内存存储,免去IO带来的性能开销。

mapreduce有这个弱点,为啥不也用内存呢?个人认为,既然都是Apache项目,spark已经解决了这个问题,那么很可能是Apache放弃了在mapreduce方面的优化,也是顺应大势所趋,没必要在mapreduce浪费时间和经历,当然这也是个人片面之词。

3.Hadoop和Spark属于哪种计算计算模型(实时计算、离线计算)?

这个首先要看你说的是哪个明确的子项目了,个人观点:

  • Hadoop生态圈中子项目Apache Hadoop中的mapreduce是属于离线计算技术;
  • Hadoop生态圈中子项目Apache hive本质是mapreduce,也属于离线计算技术;
  • Hadoop生态圈中子项目Apache storm属于实时计算技术;
  • Hadoop生态圈中子项目Apache spark中spark-shell属于离线计算技术,只不过它基于内存存储中间结果,速度上比mapreduce快很多倍,又离实时计算技术很近;
  • Hadoop生态圈中子项目Apache spark中spark streaming属于实时计算技术,类似于storm;
  • Hadoop生态圈中子项目Apache spark中sparkSQL属于离线计算技术,只不过它基于内存存储中间结果,速度上比hive快很多倍。

4 学习Hadoop和spark,哪门语言好?

这个问题先要看下我们用到的技术首先是用啥写的,目前,spark、storm和kafka这三个是用基于JVM上的语言Scala实现的,而Hadoop、hbase、hive这些是用基于JVM上的语言java实现的。

所以个人认为,学习这些技术,如果要深入源代码研究和查找问题,建议首选java和Scala,最好做到精通。

那么其他语言开发者咋办,也不是不能从事大数据开发了,因为目前大数据技术方面考虑到了其他语言开发者的感受,提供多种语言支持的,这里首先推荐去学习解释型语言Python,推荐这个的另一好处是,Python使用matlib不用考虑版权问题了但用这些非JVM语言一个缺点是,当出现了问题的时候,你拿到的一堆JVM错误信息,你可咋办???

5.哪里能找到比较全的学习资料?

        就个人目前学习大数据经验来说,最全的资料还是官网了

很多微博和视频都有介绍,包括我现在在写的微博,总体来说都比较片面,你被强迫的接受就是要这么去操作,例如Hadoop很多地方部署都写的是Hadoop1.x版本里面的namenode+secondarynamenode部署方式,很少人告诉你这是是部署方式之一,还有Hadoop2.x里面的HA部署方式;spark部署方式很多地方介绍的是单master方式,很少有地方告诉你还有基于zookeeper上的多master部署方式,而这些没有告诉你的方式在某些视频中被标榜为独门秘籍,那些老师得意洋洋的说:“来吧,交点钱,来听我的课,在我的课程里我会告诉你怎么部署spark多master方式

时间: 2024-11-12 18:22:14

对于spark以及hadoop的几个疑问(转)的相关文章

Spark和Hadoop作业之间的区别

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的. 熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce Task,如下图所示: 而在Spark中,也有Job概念,但是这里的Job和Mapreduce中的Job不一

Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)

自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了.在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:"1/10计算资源,1/3耗时".这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验. 1.Hadoop 与 Spark 集群环境完全相同: - Hado

北京上海广州Cloudera Hadoop大数据:CCAH(管理员)、CCA(Spark and Hadoop)、HBase

上海5月21-24日ClouderaAaminisrrator Training for Apache Hadoop(CCAH) 广州6月1-3日Cloudera Trainingfor Apache Hbase 广州6月18-21日Cloudera Developertraining for Spark and Hadoop(CCA-175) 上海6月27-30日Cloudera Developertraining for Spark and Hadoop(CCA-175) 北京7月7-10日

Spark与Hadoop的区别

[适用场景不同] ? ? Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘.分析 ? ? Spark:是一个基于内存计算的开源的集群计算系统,那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载.为了优化这些类型的工作负载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟, 目的是让数据分析更加快速 ? ? 除了能够提供交互式查询外,它还可以优化迭代工作负载 ? ? [语言支持不同] ? ? Spark 是在 Scala 语言中实现

spark、hadoop动态增减节点

之前在搭建实验环境的时候按部就班的配置好,然后就启动了.后来再一琢磨,有点不对劲.分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的.后来研究了一下,发现的确是不需要重启的.仍以Spark和Hadoop为例: 对于spark来说很简单,增加一个节点就是命令启动: ./sbin/start-slave.sh spark://<master>:7077 ,就完成了新节点的注册和加入集群.停止的时候是: ./sbin/stop-slave.sh.之后在master的管理端会显示

Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)

学习如何将数据导入到 Apache Hadoop 机群并使用 Spark.Hive.Flume.Sqoop.Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析. 详情:https://www.huodongjia.com/event-1838227010.html 在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理.通过学习掌握诸如 Spark.Hive.Flume.Sqoop 和 Impala 这样的 Hadoop

Cloudera Spark 及 Hadoop 开发员培训学习【北京上海】

Spark 及 Hadoop 开发员培训 学习如何将数据导入到 Apache Hadoop 机群并使用 Spark.Hive.Flume.Sqoop.Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析 在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理.通过学习掌握诸如 Spark.Hive.Flume.Sqoop 和 Impala 这样的 Hadoop 生态系统工具和技术,Hadoop 开发员将具备解决实际大数据问

CDH培训——Cloudera Developer Training for Spark and hadoop

Cloudera Developer Training for Spark and hadoop Course Time:2016年6月27-30日 Course Location:上海市 浦东新区 张江高科 伯克利工程创新中心 Contact us:400-679-6113 QQ:1438118790 Certification:CCA-175 Learn how toimport data into your Apache Hadoop closter and process it with

Spark与Hadoop MapReduce的对比分析

Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同.其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度:Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果.在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop MapReduce 的100倍以上.因此,对于实时要求较高的计算处理应用,Spark更加适用:对于海量数据分析的非实时计算