Hadoop总结篇之一------开篇

从今天开始新的系列:Hadoop总结篇

之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。

比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程。另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录。

hadoop版本:2.7.X

由于是第一篇,那么先来个综述吧。

学习hadoop我们到底要学些什么?

在2.x以后,hadoop的体系结构基本按如下三部分划分:

第一部分就是HDFS文件存储系统。就像我们操作系统的任意一种存储系统一样,这个模块决定了文件存在哪里,怎么存取。只不过他被hadoop集成使用。

主要的进程有三个: NameNode  DataNode SecondaryName 这三个类,是有main函数的

第二部分就是计算框架mapreduce,同hadoop1.x里的实现基本一致

第三部分是调度框架yarn

yarn的作用是什么?调度!这个词是精髓,调度资源,调度任务。

主要进程:resourceManager ApplicationMaster,NodeManager这三个类,也是有main函数的。

我们要学的,主要就是这三部分内容。

下面先概括的说一下执行一个job的基本工作流程:

resourceManager 接到客户端提交的任务,会申请资源(container),本质是在集群中的一台机器上,与其上的NodeManager协调,在资源上启动ApplicationMaster。

然后把job的控制权交给ApplicationMaster。后者接管后,根据任务的描述信息,去向resourceManager 申请运行task的资源。根据resourceManager 的回馈(资源可用情况描述),与可用的节点(NodeManager)协调,启动task任务。

task任务启动,那么就使用计算框架内容执行具体的计算了。

而hdfs文件读取,贯穿于整个job执行阶段。

这里有必要说明一下,Job 和Application的关系,其实两者是一个东西在不同阶段的描述。提交的时候叫Job,提交后,hadoop系统跑起来后,那就是Application了。就好像一个人小时候在家里,家人都叫乳名。上学后,就用正式名字来称呼了。

时间: 2024-08-29 20:36:44

Hadoop总结篇之一------开篇的相关文章

第1篇-JAVA开篇

第1篇-JAVA开篇 每篇一句 :用心去做每一件事 初学心得:从入门到懵懂,选择了必然会明白这是一条非常艰苦而困难的IT道路,但自己的内心会反馈一个"满意"答复! (笔者:JEEP/711)[JAVA笔记, 时间:2017-03-22, 开篇] JAVA 由来与发展 Java是由 Sun Microsystems 公司于 1995年5月推出的Java面向对象程序设计语言(简称为Java语言) Java的魅力:跨平台.动态的Web.Internet计算,从此,Java被广泛接受并推动了W

Hadoop学习篇1 快速入门

Hadoop是Apache Lucene创始人Doug Cutting创建的,Hadoop起源于Apache Nutch,一个开源的网络搜索引擎.最先引起注意是2003年google的一篇论文,该论文实现了谷歌分布式文件系统,也就是GFS,2004年,他们开始着手实现一个开源的实现,也就是HDFS, 紧接着,google的另一篇论文MapReduce公布.尽管Hadoop因为MapReduce及其分布式文件(HDFS)而出名,但是Hadoop也用于一组相关项目的名称,这些项目都是使用Hadoop

Hadoop学习篇 2 初识 Hadoop

在一个全配置的集群上,运行Hadoop意味着在网络分布的不同服务器上运行一组守护进程 (daemons),这些守护进程或运行在单个服务器上,或运行与多个服务器上,他们包括: (1) NameNode(名字节点) (2) DataNode(数据节点) (3) Secondary NameNode (次名节点) (4) JobTracker  (作业跟踪节点) (5) TaskTracker (任务跟踪节点) NameNode 被认为是Hadoop守护进程中最重要的一个,可以说,NameNode就是

【Hadoop】1、Hadoop开山篇之虚拟机下ubuntu安装jdk1.7

1进入Apache Hadoop官网 http://hadoop.apache.org/ 2. 2.点击镜像下载 我们下载稳定版stable中的2.6.0第三个 Linux下载,这里有一个错误,我们下载的应该是上面的倒数第二个,这里面我没注意下载成了上面的那个17m的了 3.安装一个Linux在虚拟机中 详情见其他 4.在Linux中安装Hadoop环境 1.安装JDK 首先先检查linux机器上是否有自带的jdk 下载jdk1.7 0)  到官网去下在jdk 下载jdk指令 Ubuntu 64

《Thinking in Java》阅读笔记第1篇:开篇

一.信息形式--"大脑信息工程学" 我从事认知方面的探索已有五六年,时至今日,已经渐进成熟,故尝试运用个人自创的知识来演示学习当中的一些独特技巧,欢迎"诸神"留言指教. 这种技巧就是展现独特的信息形式. 在认知工作方面(如果有一门学科形容它的话,我愿意称之为"大脑信息工程学"),本系列的笔记侧重于对传统学术类教材的信息形式的修改,通过这种"特殊"的修改,以达到提升学习效率的目的. 这也是我长期没有发表博客的最重要原因--如果文

[Hadoop] 第一篇 Hadoop 安装步骤

一 安装JDK 1.下载JDK 目前最新JDK:Java SE Development Kit 8u91http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.解压安装我们把JDK安装到这个路径:/usr/lib/jvm如果没有这个目录(第一次当然没有),我们就新建一个目录1 cd /usr/lib2 sudo mkdir jvm建立好了以后,我们来到刚才下载好的压缩包的目录,解压

零基础学习hadoop到上手工作线路指导(编程篇)

问题导读:1.hadoop编程需要哪些基础?2.hadoop编程需要注意哪些问题?3.如何创建mapreduce程序及其包含几部分?4.如何远程连接eclipse,可能会遇到什么问题?5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章零基础学习hadoop到上手工作线路指导(初级篇) 零基础学习hadoop到上手工作线路指导(中级篇)如果看过的话,看这篇不成问题,此篇讲hadoop编程篇. hadoop编程,hadoop是一个Java框架,同时也是编程的一次革命,使得传统开发运

Hadoop开篇

目录 Hadoop是什么 Hadoop的起源 Hadoop版本与架构核心 Hadoop理念 PS 谁说大象不会跳舞 Hadoop是什么 官网定义:The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. Had

开篇第一篇

作为一个职业码农,需要一个地方来记录自己的技术路程,顺带也将日常的一些心得记录下来. 本篇作为开篇第一篇,先用<道德经>章节开篇: 道可道,非常道:名可名,非常名.无名天地之始,有名万物之母.故常无欲,以观其妙:常 有欲,以观其徼.此两者同出而异名,同谓之玄,玄之又玄,众妙之门. …… 道生一,一生二,二生三,三生万物.万物负阴而抱阳,冲气以为和.人之所恶, 唯孤寡不穀,而王公以为称.故物,或损之而益,或益之而损.人之所教,我 亦教之.强梁者不得其死,吾将以为教父. 原文地址:https://