MapReduce示例式理解

从word count这个实例理解MapReduce。

MapReduce大体上分为六个步骤：input, split, map, shuffle, reduce, output。细节描述如下：

输入(input)：如给定一个文档，包含如下四行：
Hello Java
Hello C
Hello Java
Hello C++
2. 拆分(split)：将上述文档中每一行的内容转换为key-value对，即：

0 - Hello Java
1 - Hello C
2 – Hello Java
3 - Hello C++
3. 映射(map)：将拆分之后的内容转换成新的key-value对，即：

(Hello , 1)
(Java , 1)
(Hello , 1)
(C , 1)
(Hello , 1)
(Java , 1)
(Hello , 1)
(C++ , 1)
4. 派发(shuffle)：将key相同的扔到一起去，即：

(Hello , 1)
(Hello , 1)
(Hello , 1)
(Hello , 1)
(Java , 1)
(Java , 1)
(C , 1)
(C++ , 1)
注意：这一步需要移动数据，原来的数据可能在不同的datanode上，这一步过后，相同key的数据会被移动到同一台机器上。最终，它会返回一个list包含各种k-value对，即：

{ Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}
{C++: 1}
5. 缩减(reduce)：把同一个key的结果加在一起。如：

(Hello , 4)
(Java , 2)
(C , 1)
(C++,1)
6. 输出(output): 输出缩减之后的所有结果。

MapReduce的思想：

重要的是Shuffle：

来自知乎峰峰 https://www.zhihu.com/question/23345991/answer/223113502

原文地址：https://www.cnblogs.com/jeshy/p/11197112.html

时间： 2024-12-12 09:34:37

MapReduce示例式理解的相关文章

傻瓜式理解递归之php递归

写程序这么久了,有时候别人会问道一些算法比如排序啊,递归啊,总是不知道该怎么去说,今天就来整理一下,让更多的人去傻瓜式的理解递归.递归在网络上有很多定义,但有这么一句话听的最多:递归就是自己调用自己!引用百科的一个故事去理解: 从前有座山,山里有座庙,庙里有个老和尚,正在给小和尚讲故事呢!故事是什么呢?"从前有座山,山里有座庙,庙里有个老和尚,正在给小和尚讲故事呢!故事是什么呢?'从前有座山,山里有座庙,庙里有个老和尚,正在给小和尚讲故事呢!故事是什么呢?--'" 这样的故事是不是在做

MapReduce示例-气象站

MaxTemperature.java package cn.kissoft.hadoop.week05; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.Fi

Hadoop MapReduce链式实践--ChainReducer

版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0. 场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据: data1: A,10 A,11 A,12 A,13 B,21 B,31 B,41 B,51 data2: A,20 A,21 A,22 A,23 B,201 B,301 B,401 B,501 最后输出为: A,23 B,501 假如这样的逻辑的mapreduce数据流如下: 假设C组数据比较多,同时假设集群有2个节点,那么这个任

运行 Hadoop 的 MapReduce 示例卡住了【已解决】

1. 说明在以伪分布式模式运行 Hadoop 自带的 MapReduce 示例,卡在了 Running job ,如图所示 2. 解决过程查看日志没得到有用的信息再次确认配置信息没有错误信息最终修改了 hosts 添加本机的 hosts ,如下 192.168.23.101 s101 重新将 SSH 进行配置,最终修改了 SSH 远程登陆配置笔记. 再次运行示例,程序顺利运行. 原文地址:https://www.cnblogs.com/share23/p/9696070.html

MapReduce的一点理解

对于MapReduce编程,大概率的流程用过的人或多或少都清楚,但是归结到细节上,就有的地方不清楚了,下面根据自己的疑问,加上从网上各处,找到的被人的描述,最自己的疑问做出回答. 1. MapReduce 和 HDFS有什么关系? 首先,HDFS和MapReduce是Hadoop最核心的设计: 对于HDFS,即Hadoop Distributed File System,它是Hadoop的存储基础,是数据层面的,提供海量的数据存储:而MapReduce,则是一种引擎或者编程模型,可以理解为数据的

一个简单的MapReduce示例（多个MapReduce任务处理）

一.需求有一个列表,只有两列:id.pro,记录了id与pro的对应关系,但是在同一个id下,pro有可能是重复的. 现在需要写一个程序,统计一下每个id下有多少个不重复的pro. 为了写一个完整的示例,我使用了多job! 二.文件目录 |- OutCount //单Job的,本次试验没有使用到,这里写出来供参考 |- OutCount2 |- OutCountMapper |- OutCountMapper2 |- OutCountReduce |- OutCountReduce2 三.样本

【大数据系列】MapReduce示例好友推荐

package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; import java.util.StringTokenizer; /** * Created by sanglp on 2017/7/17. */ public clas

Hadoop-2.6.0分布式单机环境搭建HDFS讲解Mapreduce示例

Hadoop安装使用 1.1 Hadoop简介 1.2 HDFS分布式存储系统 1.3 单机安装 1.4 Mapreduce 案例 1.5 伪分布式安装 1.6 课后作业 1.1 Hadoop简介在文章的时候已经讲解了Hadoop的简介以及生态圈,有什么不懂的可以"出门右转" http://dwz.cn/4rdSdU 1.2 HDFS分布式存储系统(Hadoop Distributed File System) HDFS优点高容错性数据自动保存多个副本副本都时候会自动恢复适合

（转）Hadoop MapReduce链式实践--ChainReducer

版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0. 场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据: data1: [plain] view plaincopy A,10 A,11 A,12 A,13 B,21 B,31 B,41 B,51 data2: [plain] view plaincopy A,20 A,21 A,22 A,23 B,201 B,301 B,401 B,501 最后输出为: [plain] view pla

猜你喜欢

leetcode Implement Queue using Stacks

Implement the following operations of a queue using stacks. push(x) -- Push element x to the back of ...

The introduction to Web.config of ASP.NET #Reprinted#

1 花了点时间整理了一下ASP.NET Web.config配置文件的基本使用方法.很适合新手参看,由于Web.config在使用很灵活,可以自定义一些节点.所以这里只介绍一些比较常用的节点. 2 3 ...

二维数组，多维数组，集合。

一.二维数组 int [,] array=new int [m,n];表示建立一个名叫array的int数组,这个数组有m个一维数组,每个一维数组有n个因素. array[m,n]表示索引号是为第m的 ...

（二）JAVA使用POI操作excel

1,创建一个时间格式的单元格 Demo4.java 1 package com.wishwzp.poi; 2 3 import java.io.FileOutputStream; 4 import j ...

深入Redis内部-Redis 源码讲解（转）

Redis作为 NoSQL 数据库的杰出代表,一直广受关注,其轻量级的敏捷架构,向来有存储中的瑞士军刀之称.下面推荐的一篇文章,从源码的角度讲解了Redis 的整个工作流程,是了解 Redis 流程的 ...

C语言基础总结 ( 一 )----------函数和进制的总结

1. 函数分类 1) 无参无返回值函数一般用于执行某些固定的功能.(打印logo) 2) 无参有返回值函数一般用于获取某些数据或结果.(获取数字) 3) 有参无返回值函数一般利用参数完成某些特定功能. ...

妆作族灼柞最妆作族灼柞最jbjhbsjbjhbs

nvafnnnvafnnnvafnn足茁注佐啄准足茁注佐啄准足茁注佐啄准足茁注佐啄准足茁注佐啄准足茁注佐啄准足茁注佐啄准 http://www.bxwx.cc/91/91516/16720336.ht ...

第五十一课、c++对象模型分析（下）

一.继承的本质 1.在c++编译器的内部类可以理解为结构体 2.子类是由父类成员叠加子类新成员得到的二.多态的本质 1.当类中声明一个虚函数时,编译器会在类中生成一个虚函数表 2.虚函数表是一个存储 ...

linux使用swap情况及程序

#!/bin/bash ############################################################################### # date : ...

Basic Calculator II

Implement a basic calculator to evaluate a simple expression string. The expression string contains ...

logshell 读取流程

Linux内核源码目录说明

Linux内核源代码位于/usr/src/linux目录下,其结构分布如图1.3所示,每一个目录或子目录可以看作一个模块,其目录之间的连线表示“子目录或子模块”的关系.下面是对每一个目录的简单描述. ...

第二章：JMeter 的介绍

1. jMeter 的历史: Apache Jmeter 是 100%的java桌面应用程序,用于对软件做压力测试. 2. Jmeter的测试范围:对于静态和动态资源(文件,Servlet,Perl脚 ...

iOS----------开发中常用的宏有那些

OC对象判断是否为空? 字符串是否为空 #define kStringIsEmpty(str) ([str isKindOfClass:[NSNull class]] || str == nil || ...

拖谄赵芡派swj6d49rg

王言却不理他,顺着自己的话继续说下去:"我所说的你中有我.我中有你,指的就是,表面看去,你们之间的武魂互相毫无关系.但是,在你们的武魂内在之中,却有可能会彼此互相存在.这么说有些拗口,我举个 ...

jquery_DOM笔记4

jQuery遍历函数: add()添加,可以是样式,字符串,元素,文本,js对象 andself() 指向匹配元素本身 chilidren() 匹配元素的所有子元素的匹配元素 closest() 从本 ...

sed命令的一个用法

有命令如下: 1.sed -n '1~2!p' datafile 该条命令的意思是:每两行读取datafile文件到模式空间,匹配每两行中的第一行,不打印,剩下的行打印,取消默认输出. 2.sed - ...

c# datetime 格式化大全与使用总结

//C# datetime 格式化 DateTime dt = DateTime.Now; Label1.Text = dt.ToString();//2005-11-5 13:21:25 Label ...

C# using垃圾回收详解

简介定义一个范围,将在此范围之外释放一个或多个对象. 语法 using (Font font1 = new Font("Arial", 10.0f)) { } C# 语言参考主 ...

20160526-20160531mybatis入门进阶

mybatis第二天高级映射查询缓存和spring整合课程复习: mybatis是什么? mybatis是一人持久层框架,mybatis是一个不完全的ORM框架.sql语句需要程序员自己去编 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.030 s.