Hadoop 的核心：Mapreduce思想说明

Mapreduce思想

1. 就是做一个计算，如果计算过程中如果数据传输消耗的资源大于计算消耗的资源，考虑在计算过程中，将算法（程序），移动到数据存放的服务器中，再进行计算。

2. 在做一个巨型计算时，利用多台（例如 2000 ）台服务器的 cpu 和内存同时计算。

算法描述

第一种方式描述

将计算要用的数据切分，放在各个服务器上，然后将计算程序分发到各个服务器，计算出各个部分的结果。最后将各个计算结果合并。

第二种方式描述

另外一种描述为， MapReduce 的名字源于这个模型中的两项核心操作： Map 和 Reduce 。也许熟悉
Functional Programming （函数式编程）的人见到这两个词会倍感亲切。简单的说来， Map
是把一组数据一对一的映射为另外的一组数据，其映射的规则由一个函数来指定，比如对 [1, 2, 3, 4] 进行乘 2 的映射就变成了 [2,
4, 6, 8] 。 Reduce 是对一组数据进行归约，这个归约的规则由一个函数指定，比如对 [1, 2, 3, 4]
进行求和的归约得到结果是 10 ，而对它进行求积的归约结果是 24

总的来说算法必须可以切分，包含小列步骤。

切分、分别计算、合并。

最典型的是大规模日志计算。

时间： 2024-11-23 23:56:17

Hadoop 的核心：Mapreduce思想说明的相关文章

hadoop的核心思想【转】

[转自]:http://www.superwu.cn/2014/01/10/963/ 1.1.1. hadoop的核心思想 Hadoop包括两大核心,分布式存储系统和分布式计算系统. 1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下.比如,很多的电信通话记录就存储在很多台服务器的很多硬盘中.那么,要处理这么多数据,必须从一台一台服务器分别读取数据和写入数据,太麻烦了! 我们希望有一种文件系

Hadoop（四）——编程核心MapReduce（上）

上篇讲述了Hadoop的核心内容之一HDFS,是Hadoop分布式的平台基础,而这讲的MapReduce则是充分利用Hdfs分布式,提高运行效率的算法模型 ,Map(映射)和Reduce(归约)两个主要阶段都以<key,value>键值对作为输入和输出,我们需要做的就是对这些<key,value>做我们想要的处理.看似简单实则麻烦,因为这里太灵活多变. 一,好,首先来看下边两个图,看下mapreduce在Hadoop中的执行流程,以及mapreduce内部的执行流程: 以分析气象数

MapReduce的核心编程思想

1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制原文地址:https://www.cnblogs.com/areyouready/p/9853445.html

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理. 由此,近期凡是空暇时,便在看"Hadoop","MapReduce""海量数据处理"这方面的论文.但在看论

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现. MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1. Hadoop示例程序WordCount详解及实例 2. hadoop 学习笔

每天收获一点点------Hadoop之初始MapReduce

一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它使得那些没有多有多少并行计算经验的开发人员也可以开发并行应用程序.这也就是MapReduce的价值所在,通过简化编程模型,降低了开发并行应用的入门门槛. 1.1 MapReduce是什么 Hadoop

hadoop之魂--mapreduce计算框架，让收集的数据产生价值（第4篇）

通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. Mapreduce计算框架如果将Hadoop比做一头大象,那么MapReduce就是那头大象的电脑.MapReduce是Hadoop核心编程模型.在Hadoop中,数据处理核心就是MapReduce程序设计模型. 本章内容: 1) MapReduce编程模型 2) MapReduce执行流程 3) MapReduce数据本地化

初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1.Hadoop示例程序WordCount详解及实例 2.hadoop 学习笔记:m

YARN Apache Hadoop 的下一代MapReduce

之前自己做的hadoop项目是基于0.20.2版本的,查了一下资料,知道了自己以前学的是原map/reduce模型. 官方说明: 1.1.X - current stable version, 1.1 release 1.2.X - current beta version, 1.2 release 2.X.X - current alpha version 0.23.X - simmilar to 2.X.X but missing NN HA. 0.22.X - does not inclu

猜你喜欢

使用iframe，注销以后，点击某个标签，跳转到的登录页面位于标签中

当使用iframe时,要么会话过期,要么手动注销,如果此时再进行操作,可能遇到跳转到登录页面,可是登录页面会位于标签执行,并没有全屏显示,即位于当前的iframe中,此时的解决方式很简单,只需要在登录 ...

再谈WordPress获取文章图片——制作文章图片集

有一次接到一个项目,客户要求:如果一篇文章中存在多幅图片,要能把这些图片在当前文章页面制作成一个图片集. 仔细分析这个要求,前端设计无悬念,无非就是如何获取当前文章中所有图片的 src 值的问题. 联 ...

求Fibonacci数列的第n项

题目: 定义Fibonacci数列如下: 方法一: 递归的方法,代码如下: #include<iostream> using namespace std; int Fibona(int n ...

MySQL存储引擎 InnoDB/ MyISAM/ MERGE/ BDB 的区别

MyISAM:默认的MySQL插件式存储引擎,它是在Web.数据仓储和其他应用环境下最常使用的存储引擎之一.注意,通过更改 STORAGE_ENGINE 配置变量,能够方便地更改MySQL服务器的默认 ...

信息化怪现状之一：拿人当机器用，拿机器当人用。

信息化是什么? 那么多年,大家都说已经能够认同一个观点:不是单纯购买硬件,堆砌硬件就不是信息化. 可是,很多单位都还认为信息化就是普及人手一机-- 比如说实现文档电子化,就说建立一个QQ群就实现了-- ...

设计模式18：Observer 观察者模式（行为型模式）

Observer 观察者模式(行为型模式) 动机(Motivation) 在软件构建过程中,我们需要为某些对象建立一种“通知依赖关系”——一个对象(目标对象)的状态发生改变,所有依赖对象(观察者对象) ...

想写点啥？

突然想写点啥.为的是在一个没有具体事情可干的下午,想法忽左忽右,想法混混沌沌,甚至没有特别明确的想法,时间在一点一滴的流过,时间过后想想今天干了什么?留下了什么?想想还真的什么都没干. 其实,很多时候 ...

在manifest中注册activity学习笔记

原来活动就是所说的activity. 所有的活动即activity必须要在AndroidManifest.xml中进行注册才能生效在 application标签下声明添加 <activity ...

OperationSystemForm : BaseWorkerForm

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...

JAVA静态导入(inport static)详解

在Java 5中,import语句得到了增强,以便提供甚至更加强大的减少击键次数功能,虽然一些人争议说这是以可读性为代价的.这种新的特性成为静态导入. 当你想使用static成员时,可以使用静态导入( ...

hdu 6066 RXD's date

1 #include<bits/stdc++.h> 2 using namespace std; 3 4 int main(){ 5 int n,x; 6 cin>>n; 7 ...

股票市场运动的四个阶段 30日均线的13大操盘法

★股票市场运动的四个阶段: 以30日均线为标准,一次完整的股票市场循环运动必然包含上图框定的四个阶段,没有任何一只股票能够例外.30日均线是机构庄家操盘战略战术动作展开的生命线,其中的短线操作价值务必 ...

开源顺顺表格excel电子表格控件免费下载

顺顺表格开源版是基于Web的类似于微软Excel的网页电子表格控件,是一款Javascript电子表格控件.顺顺表格开源版的源代码开放,可以用于Web报表设计器,Web电子表格编辑器,中国特色的电子表 ...

大规模数据爬取 -- Python

Python书写爬虫,目的是爬取所有的个人商家商品信息及详情,并进行数据归类分析整个工作流程图: 第一步:采用自动化的方式从前台页面获取所有的频道 from bs4 import Beautiful ...

我的丈夫是个程序员

http://www.aqee.net/my-husband-is-a-programmer/我在11年前认识了的我丈夫.当时是南缅因州大学新生入校的日子,我带着吉他去宿舍.他饶有兴趣的盯着我的吉他. ...

一个创建Coco2d-x项目的脚本

1.使用环境我测试的环境是Mac OS 10.10 +Coco2d-x 3.2,是使用shell写的脚本,应该linux/unix都应该可以使用. 2.使用可能出现的问题使用中可能会爆权限不足的 ...

cocos2d-x 3.2读取plist文件

先在resource里创建plist文件然后输入一下代码即可 FileUtils *fu=FileUtils::getInstance(); auto vm=fu->getValueMapFr ...

proto变量风格

package pkg_flag; // message service的命名空间, 小写 message MsgFlag { // MsgFlag是一个类, 驼峰 optional bool boo ...

艾维接管苹果界面设计：重新思考iOS的一切

北京时间11月3日消息,据国外媒体报道,苹果设计部门负责人乔纳森-艾维(Jony Ive)近日开始全面负责苹果所有产品的设计.这位天才设计师将会重新思考iOS的一切,并将它打造成又一个新的令人炫目的东 ...

ProcessStartInfo 例子

如果你想在C#中以管理员新开一个进程,参考: Run process as administrator from a non-admin applicationProcessStartInfo inf ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.