大数据运算模型 MapReduce 原理

2016-01-24 杜亦舒

MapReduce 是一个大数据集合的并行运算模型，由google提出，现在流行的hadoop中也使用了MapReduce作为计算模型

MapReduce 通俗解释

图书馆要清点图书数量，有10个书架，管理员为了加快统计速度，找来了10个同学，每个同学负责统计一个书架的图书数量

张同学统计书架1
王同学统计书架2
刘同学统计书架3
......

过了一会儿，10个同学陆续到管理员这汇报自己的统计数字，管理员把各个数字加起来，就得到了图书总数

这个过程就可以理解为MapReduce的工作过程

MapReduce中有两个核心操作

（1）map

管理员分配哪个同学统计哪个书架，每个同学都进行相同的“统计”操作，这个过程就是map

（2）reduce

管理员把每个同学的结果进行汇总，这个过程就是reduce

MapReduce 工作过程拆解

下面通过一个经典案例（单词统计）看MapReduce是如何工作的

有一个文本文件，被分成了4份，分别放到了4台服务器中存储

Text 1: the weather is good
Text 2: today is good
Text 3: good weather is good
Text 4: today has good weather

需求：统计出每个单词的出现次数

处理过程

分词处理

map节点 1

输入：(text1, “the weather is good”)

输出：(the, 1), (weather, 1), (is, 1), (good, 1)

map节点 2

输入：(text2, “today is good”)

输出：(today, 1), (is, 1), (good, 1)

map节点 3

输入：(text3, “good weather is good”)

输出：(good, 1), (weather, 1), (is, 1), (good, 1)

map节点 4

输入：(text3, “today has good weather”)

输出：(today, 1), (has, 1), (good, 1), (weather, 1)

排序

map节点 1

map节点 2

map节点 3

map节点 4

合并

map节点 1

map节点 2

map节点 3

map节点 4

汇总统计

MapReduce引入了barrier概念，有的译为“同步障”，我理解为“分界线”，是进入reduce的一道分界线

barrier的作用是对合并结果进行组合

例如使用了3个reduce节点，需要对上面4个map节点的结果进行重新组合，把相同的单词放在一起，并分配给3个reduce节点

reduce节点进行统计，计算出最终结果

时间： 2024-10-03 22:40:37

大数据运算模型 MapReduce 原理的相关文章

大数据技术之MapReduce中多表合并案例

大数据技术之MapReduce中多表合并案例 1)需求: 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 商品信息表t_product pid pname 01 小米 02 华为 03 格力商品数据pd.txt 01 小米 02 华为 03 格力将商品信息表中数据根据商品pid合

使用Stack堆栈集合大数据运算

使用Stack堆栈集合大数据运算 package com.sta.to; import java.util.Iterator; import java.util.Stack; public class DaMax { public void jiaFa(String value1, String value2) { /** * 更多资料欢迎浏览凯哥学堂官网:http://kaige123.com * @author 小沫 */ // 把字符串用toCharArray拆成字符 char[] c1

java ->大数据运算（BigInteger）

大数据运算 BigInteger java中long型为最大整数类型,对于超过long型的数据如何去表示呢.在Java的世界中,超过long型的整数已经不能被称为整数了,它们被封装成BigInteger对象.在BigInteger类中,实现四则运算都是方法来实现,并不是采用运算符. BigInteger类的构造方法: BigInteger b = new BigInteger(str); 构造方法中,采用字符串的形式给出整数四则运算代码: public static void main(Str

Date、DateFormat类、Calendar类、基本类型包装类、System类、Math类、Arrays类、大数据运算类

1.Date (1)概述: 时间的原点:公元1970年一月一日,午夜0:00:00 对应的毫秒值就是0 注意:时间和日期的计算,必须依赖毫秒值 ----------------Date()获取当前时间 import java.util.Date; public class Demo06boke { public static void main(String[] args) { Date sdf=new Date(); System.out.println(sdf); } } Date(lon

Java Array和大数据运算

1.Array类 ?sort方法,用来对指定数组中的元素进行排序(元素值从小到大进行排序) //源arr数组元素{1,5,9,3,7}, 进行排序后arr数组元素为{1,3,5,7,9} int[] arr = {1,5,9,3,7}; Arrays.sort( arr ); ?toString方法,用来返回指定数组元素内容的字符串形式 int[] arr = {1,5,9,3,7}; String str = Arrays.toString(arr); // str的值为[1, 3, 5, 7

大数据学习的思维原理（机器懂人原理篇）

我们在上一篇文章中给大家介绍了很多大数据学习的思维原理,对于这些思维原理都是需要大家掌握的,在这篇文章中我们给大家讲解一下机器懂人原理,希望这篇文章能够给大家带来帮助. 首先我们给大家说说什么是机器懂人原理,机器懂人原理就是由人懂机器转变为机器更懂人.这里说的不是让人更懂机器,而是让机器更懂人,或者说是能够在使用者很笨的情况下,仍然可以使用机器.甚至不是让人懂环境,而是让我们的环境来懂我们,环境来适应人,某种程度上自然环境不能这样讲,但是在数字化环境中已经是这样的一个趋势,就是我们所在的生活世界

7、包装类、System、Math、Arrays、大数据运算

基本类型封装基本数据类型对象包装类概述 *A:基本数据类型对象包装类概述 *a.基本类型包装类的产生在实际程序使用中,程序界面上用户输入的数据都是以字符串类型进行存储的.而程序开发中,我们需要把字符串数据,根据需求转换成指定的基本数据类型,如年龄需要转换成int类型,考试成绩需要转换成double类型等 *b.八种基本类型对应的包装类 char Character int Integer byte Byte short Short long Long float Float double D

math,Arrays和大数据运算

Math类概念类似这样的工具类,其所有方法均为静态方法,并且一般不会创建对象. 常用方法 Arrays类概念此类包含用来操作数组(比如排序和搜索)的各种方法大数据运算 BigInteger 原文地址:https://www.cnblogs.com/www1842564021/p/12101179.html

大数据生态圈中相关原理（1）

MapReduce 原理客户端任务到jobTracker, jobTracker分发任务到map和reduce. map从datasplit 中获取数据区,根据客户端的相关业务逻辑生成(K,V)对,数据先缓存到环形缓冲区,直到达到设定上限(默认为80%),然后会写入到磁盘上.写入磁盘之前,会进行分区排序. reduce 会根据各自分区copy自己所需要的数据,先进行合并,排序,然后执行reduce的逻辑,接着会将结果输出的HDFS上part-...-00000 shuffle相关原理,以及参数