Hadoop第三课

1.3Hadoop基础知识

1.3.1术语解释

1.Hadoop1.0

? 第一代Hadoop,由分布式文件系统HDFS 和分布式计算框架MapReduce组成

? HDFS由一个NameNode和多个DataNode 组成

? MapReduce由一个JobTracker和多个 TaskTracker组成

课堂笔记

图中的4个英文单词都是指带进程。

进程简而言之就是程序(一行行的代码)加上启动这个程序所包含的所有资源。

大致讲解一下Hadoop1.0,看图!master这个节点中有两个进程,NameNode和JobTracker;slaves这个节点中也有两个进程,DateNode和TaskTracker。首先我们要知道上文所陈列的三点,顾名思义,NameNode管存储,将资源存储在DateNode中;而JobTracker管计算和调度,(DateNode和TaskTracker在同一个地方,一个存储,一个计算,这种计算方法是最优化的)。我们可以打个比方,比作是一个公司,那么CEO—JobTracker,秘书—NameNode(真正的存储是存储在DateNode是我身上的)。

但这样的Hadoop1.0有一个致命的缺点,倘若宕机的是master这一节点,这一系统就彻底奔溃了,这时,我们想到了一个解决方法,给master作备份,然而这个备份是冷备份,也就是说不是实时备份的,因而我们所说的单点故障是由NameNode的冷备份所造成的,所以Hadoop1.0没有走下去。

master这一节点在整个集群中是不唯一的。NameNode是唯一的。slaves这个节点也不唯一,是多个的。

下面分别阐述下几个进程的作用:

  • NameNode:

  1.HDFS的守护进程。

  2.记录文件是如何被分隔成数据块的。

  3.记录这些数据块被存储到哪些节点上。

  4.会对内存和IO进行集中性的管理。

  • JobTracker:

  客户端提交作业首先是提交给JobTracker的。

  1.用于处理后台作业的一个程序。

  2.JobTracker会分割任务,并分配到对应的节点上。

  3.分析:任务未完成;任务失败。重新启动失败的任务;重新调度,让新的节点来完成这一任务。

  • DateNode

  每一台slaves服务器上都有一个DateNode的进程。DateNode的工作:负责将HDFS上的数据读取到本地文件文件系统中去。

  • TaskTracker

  做具体工作的一个进程。作用:启动多个JVM,并执行Map或reduse的任务。

————————————————————————————————————

2.Hadoop2.0

  • 第二代Hadoop,为克服Hadoop1.0中 HDFS和MapReduce存在的各种问题而提出
  • Hadoop1.0单NameNode制约HDFS扩展性,(因为内存大小限制了节点的个数,大体为4000个节点个数) 提出HDFS Federation (联合 思想:分而治之)
  • Hadoop1.0中MapReduce在扩展性和多框架支持等方面的不足,将JobTracker中的资 源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现

ps:Spark—搭建在Hadoop上才变成分布式的。

因为有了YARN,所以可以有其他框架进入Hadoop2.0这个载体上,这是个松耦合。

3.MapReduce1.0或MRv1

MRv1中计算框架为三个部分:

  • 编程模型——Map和Reduce函数组成
  • 数据处理引擎——Map Task和Reduce Task组成
  • 运行环境——一个JobTracker和多个 TaskTracker组成

4.MRv2

  • 与MRv1相同的编程模型和数据处理引擎, 不同的是运行环境
  • MRv2是在MRv1基础上经过加工后,运行 于资源管理框架YARN之上的计算框架 MapReduce
  • 由通用资源管理系统YARN和作业控制进程 ApplicationMaster来完成相应工作

5.YARN

  • Hadoop2.0中的资源管理系统,是一个通用 资源管理模块,可为各类应用程序进行资 源管理和调度
  • YARN不仅限于MapReduce一种计算框架, 也可供其他框架使用,如Spark、Storm
  • 由于YARN的通用性,下一代MapReduce 的核心已从简单的支持单一应用的计算框 架转移到通用资源管理系统上

ps:MESOS也是一个通用资源管理器。

Hadoop1.0+Spark+Storm这三个框架造成了资源浪费,人力资源问题等。有YARN后,这些问题就得以优化,当Spark用的比较多时,可以将资源迁移到Spark上。

6.HDFS Federation

  • Hadoop2.0对HDFS进行了改进,使 NameNode可以横向扩展成多个,每个 NameNode分管一部分目录,进而产生了 HDFS Federation
  • 该机制的引入不仅增强了HDFS的扩展性, 也使HDFS具备了隔离性

1.3.2Hadoop版本变迁

Apache Hadoop主要有四个系列的版本:

  • 0.20.X系列——最老版本
  • 0.21.0/0.22.x系列——俗称Hadoop1.0版本
  • 0.23.X系列——克服Hadoop在扩展性和框 架通用性方面的不足
  • 2.X系列——同0.23.X系列一样,属于 Hadoop2.0版本,主要增加了NameNode HA等功能

作业

  • 什么是Hadoop,你理解中的Hadoop是什么,请举例说明?
  • Hadoop2.0生态系统中包括哪些产品,请描述他们之间的关系?

原文地址:https://www.cnblogs.com/DC0307/p/8570501.html

时间: 2024-11-10 11:58:27

Hadoop第三课的相关文章

第三课 文件系统(上)

unix_c_03.txt====================第三课 文件系统(上)====================一.系统调用------------应用程序 -----------+| |v |各种库 |(C/C++标准库.Shell命令和脚本. |X11图形程序及库) || |v |系统调用 <----------+(内核提供给外界访问的接口函数,调用这些函数将使进程进入内核态)|v内核(驱动程序.系统功能程序)1. Unix/Linux大部分系统功能是通过系统调用实现的.如o

java工程开发之图形化界面之(第三课)

上面我们讲述了通过JOptionPane进行文本I/O操作,一个是通过JOptionPane来获取的 参考链接:http://blog.sina.com.cn/s/blog_993d254201013pgh.html#cmt_3339216 JOptionPane类 1.属于javax.swing 包. 2.功能:定制四种不同种类的标准对话框. ConfirmDialog 确认对话框.提出问题,然后由用户自己来确认(按"Yes"或"No"按钮) InputDialo

shellKali Linux Web 渗透测试— 初级教程(第三课)

shellKali Linux Web 渗透测试— 初级教程(第三课) 文/玄魂 目录 shellKali Linux Web 渗透测试—初级教程(第三课)... 1 课程目录... 1 通过google hack寻找测试目标... 2 一个asp站点的sql注入... 3 一个php站点的sql注入... 4  课程地址:点击 课程目录 两个基本案例,以sql注入入手,目标为熟悉基本的思路,关注细节信息. 关于google hack,web 扫描,sql注入更详细和复杂的内容后续教程会专门讲解

【C语言探索之旅】 第二部分第三课:数组

内容简介 1.课程大纲 2.第二部分第三课: 数组 3.第二部分第四课预告:字符串 课程大纲 我们的课程分为四大部分,每一个部分结束后都会有练习题,并会公布答案.还会带大家用C语言编写三个游戏. C语言编程基础知识 什么是编程? 工欲善其事,必先利其器 你的第一个程序 变量的世界 运算那点事 条件表达式 循环语句 实战:第一个C语言小游戏 函数 练习题 习作:完善第一个C语言小游戏 C语言高级技术 模块化编程 进击的指针,C语言王牌 数组 字符串 预处理 创建你自己的变量类型 文件读写 动态分配

BeagleBone Black 板第三课:Debian7.5系统安装和远程控制BBB板

BBB板第三课:Debian7.5系统安装和远程控制BBB板 因为BBB板系统是Debian 7.4,据说使用Debian系统可以实现很多BBB板的无缝连接,可以更好的学习和控制BBB板,所以就决定下载Debian7.5系统安装,采用虚拟机的安装方式. 一.系统安装 1.我下载了Debian7.5 32位系统,有三张DVD盘,网上有不少安装资料了,我这里就不详细介绍安装过程了.不过有一点可能很多人都会遇到的问题,就是安装过程中提示插入光盘的问题.虚拟机是Vmware workstation 10

【Linux探索之旅】第一部分第三课:測试并安装Ubuntu

内容简单介绍 1.第一部分第三课:測试并安装Ubuntu 2.第一部分第四课预告:磁盘分区 測试并安装Ubuntu 大家好,经过前两个比較偏理论(是否想起了带着瓜皮帽,手拿折扇的老学究,或者腐儒)的课程,这第三课我们就正式进入实战啦. 可能不少朋友没使用过Linux这个操作系统,那么这一课就是见识一下它的庐山真面目的时候了. 我们这个系列课程所使用的Linux发行版是Ubuntu,由于其使用广泛.技术支持全面.文档完整,另一个非常关键的原因就是Ubuntu的配色偏"土豪金"啊,有木有.

Spark 3000门徒第三课scala高阶函数总结

今晚听了王家林老师3000门徒spark系列课程的第三课,讲述了scala函数,下面写一下心得: 普通函数:def fun1(name:String){println(name)} 函数赋值给变量:val fun1 = functionName _ 匿名函数:val fun2 = (name:String) => prinln(name) 高阶函数:def bigData(func:(String) => Unit, content: String){func(content)} 返回值是函数

【C语言探索之旅】第三部分第三课:SDL开发游戏之显示图像

内容简介 1.第三部分第三课: SDL开发游戏之显示图像 2.第三部分第四课预告: SDL开发游戏之事件处理 第三部分第三课:SDL开发游戏之显示图像 上一课中,我们学习了如何加载SDL库(SDL_Init),释放SDL库(SDL_Quit),如何打开一个窗口(Window),如何使用表面(Surface). 这些都是SDL库最最基本的操作.暂时,我们只会给窗口自带的表面上点颜色,好像挺乏味的. 这一课我们来学习如何插入图片.上一课我们说过,SDL中绘制图样需要在Surface上进行.Surfa

【连载】创业能力培训第三课总结

创业能力培训第三课总结 一.企业分类: 1.有限公司 2.股份有限公司 3.农民专业合作社 4.民办非企 5.合伙企业(无限责任.非法人企业) 6.个体工商户(无限责任.非法人企业) 7.个人独资企业(无限责任.非法人企业) 二.如何选择企业形态 1.资金来源 2.分配利润 3.决策行为 三.关于创业成功率 1.自助 颜值(个人信用度) 例如:你打个电话出去借钱(不限金额),看看明天一早能够收到多少钱,给你准时打钱并且金额较大的,请关注. 2.他助 有哪些人能帮助你,物质上.精神上等等. 3.天