Hadoop学习之MapReduce

结构介绍

MapReduce是Hadoop提供的一种处理海量数据的并行编程模型和计算框架，用于对大规模的数据进行并行计算。主要由ResourceManager和NodeManager两类节点构成。
ResourceManager主要负责集群资源管理，NodeManager负责节点的资源管理。
当运行MapReduce任务的时候，后产生ApplicationMaster和Container，其中ApplicationMaster负责向ResourceManager节点进行资源的申请并控制任务的执行，Container是最基本的资源单位。MapReduce的Map和Reduce均是其之上进行运行的。

MapReduce编程思想

MapReduce采用“分而治之”的思想。对大规模的数据集的操作分配给各子节点进行操作，然后通过整合子节点的中间结果得到最终结果。即“任务的分解和结果的汇总”。
Hadoop将这个工作高度抽象成为两个函数，分别为Map和Reduce。Map负责将任务分解为多个任务。Reduce负责将多个Map任务的中间结果合并为最终结果。在此过程中的其他步骤均由Hadoop的MapReduce框架自行负责处理，包括工作调度、任务分配和节点间通信等。

Hadoop数据类型

继承接口Writable实现其方法write()和readFields()，以便该数据能被序列化后完成网络传输或文件输入/输出。
如果该数据需要作为主键key使用或者需要比较值大小时，则需要实现WritableComparable接口，实现其方法write(),readFields(),CompareTo()。

类型	说明
BooleanWritable	标准布尔型数值
ByteWritable	单字节数值
DoubleWritable	双字节数值
FloatWritable	浮点数
IntWritable	整型数
LongWritable	长整型数
Text	使用UTF8格式存储的文本
NullWritable	当<key, value>中的key或value为空时使用

以上为Hadoop中关于MapReduce的一些介绍，具体正在学习ing...

原文地址：https://www.cnblogs.com/yin1361866686/p/11724967.html

时间： 2024-10-04 03:38:23

Hadoop学习之MapReduce的相关文章

Hadoop学习(五)-MapReduce架构原理

概述 hadoop主要是用于应对海量数据的存储和计算的,前面hdfs文件系统,则重点是用于海量数据的存储.那么有了这么多数据,我们又该怎么在这些数据里面来提取我们需要的信息呢?这个时候hadoop中出现了一个非常重要的成员MapReduce.MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.注意这个并行运算,它不再是我们传统意义上的串行计算,它可以在不同的进程中进行并行的运算.概念"Map(映射)"和"Reduce(归约)",是它们的主要思

Hadoop学习之MapReduce执行过程详解

转自:http://my.oschina.net/itblog/blog/275294 分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中.整个流程如图: Mapper任务的执行过程详解每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的键值对,经过我

Hadoop 学习之MapReduce

MapReduce充分利用了分而治之,主要就是将一个数据量比较大的作业拆分为多个小作业的框架,而用户需要做的就是决定拆成多少份,以及定义作业本身,用户所要做的操作少了又少,真是Very Good! 一．MapReduce执行流程下面的是MapReduce的执行过程: 最上方的用户程序链接了底层的MapReduce库,并实现了最基本的Map函数和Reduce函数. 由用户来决定将任务划分为K块(这里设为5),假设为64MB,如图左方所示分成了split0~4(文件块):然后使用fork将用户程序

hadoop 学习笔记：mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不

hadoop学习；自定义Input/OutputFormat；类引用mapreduce.mapper；三种模式

hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是LongWritable类型,而当使用KeyValueTextInputFormat时,第一个分隔符前后

hadoop学习；block数据块；mapreduce实现例子；UnsupportedClassVersionError异常；关联项目源码

Football on Table 题意:一些杆上有人,人有一个宽度,然后现在有一个球射过去,要求出球不会碰到任何人的概率思路:计算出每根杆的概率,之后累乘,计算杆的概率的时候,可以先把每块人的区间长度再移动过程中会覆盖多少长度累加出来,然后(1?总和/可移动距离)就是不会碰到的概率代码: #include <stdio.h> #include <string.h> #include <math.h> const double eps = 1e-8; int t,

Hadoop 学习笔记一 ---MapReduce 的输入和输出

Hadoop 中的MapReduce库支持几种不同格式的输入数据.例如,文本模式的输入数据的每一行被视为一个key/value pair,其中key为文件的偏移量,value为那一行的内容.每一种输入类型的实现都必须能够把输入数据分割成数据片段,并能够由单独的Map任务来对数据片段进行后续处理. 一. 输入格式InputFormat 当运行一个M-R 作业的时候,我们需要为作业制定它的输入格式.InputFormat为Hadoop作业的所有输入格式的抽象基类,它描述了作业输入需要满足的规范细节

Hadoop学习笔记—4.初识MapReduce

一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它使得那些没有多有多少并行计算经验的开发人员也可以开发并行应用程序.这也就是MapReduce的价值所在,通过简化编程模型,降低了开发并行应用的入门门槛. 1.1 MapReduce是什么 Hadoop

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现. MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1. Hadoop示例程序WordCount详解及实例 2. hadoop 学习笔