Hadoop实战：使用Combiner提高Map/Reduce程序效率

好不easy算法搞定了。小数据測试也得到了非常好的结果，但是扔到进群上。挂上大数据就挂了。无休止的reduce不会结束了。

。。

。。

。。。。

。。

。。。

。。

====================================================================

这才想起还有个combiner！

。！！！。！！

！。！！。！！

！！

！

！！

！

我们知道。MapReduce是分为Mapper任务和Reducer任务。Mapper任务的输出，通过网络传输到Reducer任务端，作为输入。

在Reducer任务中，通常做的事情是对数据进行归约处理。

那么当大量的Mapper结果狂奔而来的时候。Reducer非常多时候是招架不住的，尤其是每个结果size也非常大的时候。如今该Combiner发挥作用了，我们能够把Reducer要做的工作让Combiner来做，这样不仅本地完毕了数据的规约处理，同一时候也大量降低了网络传输负载。传输时间大大缩减能够提高效率。

Reducer端接受的数据就基本是结果了。。

。。。

。。。。

。。

。

。

。。。。

要注意的是，Combiner仅仅在Mapper任务所在的节点执行，不会跨Mapper任务执行。Reduce端接收全部Mapper端的输出来作为输入。尽管两边的归约类是同一个，可是执行的位置全然不一样。

并非全部的归约工作都能够使用Combiner来做。

比方求平均值就不能使用Combiner。由于对于平均数的归约算法不能多次调用。

===================================================================

时间： 2024-11-10 07:14:35

Hadoop实战：使用Combiner提高Map/Reduce程序效率的相关文章

Hadoop 使用Combiner提高Map/Reduce程序效率

众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出. 在上述过程中,我们看到至少两个性能瓶颈: 如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可.这样做不仅可以减轻网络压力,同样也可以大幅度提高程序效率. 使用专利中的国家一项来阐述数据倾斜这个定义.这样的数据远

Hadoop简介(1):什么是Map/Reduce

看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等. 这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop: 1.什么是Map/Reduce,看

如何给Map/Reduce程序传递参数?

前言以前我们启动一个Map/Reduce,经常是利用hadoop jar ./xxx.jar yyy.KK input output的方式在SHELL脚本或者命令行直接提交作业.但是最近涉及到的一个项目,需要根据配置动态的启动MR作业,也就是涉及到向MAP,REDUCE处理类传递参数的问题. 传递参数的方式最常见的方式: Configuration conf = new Configuration(); conf.set("key","value"); 然后在M

详述执行map reduce 程序的步骤（本地执行MR、服务器上执行MR）

MR程序的执行环境有两种:本地测试环境.服务器环境. 1.本地环境执行MR程序的步骤: (1)在windows下配置hadoop的环境变量 (2)拷贝debug工具(winutils)到HADOOP_HOME/bin (3)从源码中拷贝org.apache.hadoop.io.nativeio.NativeIO.java到我们的mr的src目录下,修改NativeIO.java.(大家可去http://download.csdn.net/detail/u013226462/9516657下载.)

用python写map reduce程序

利用hadoop streaming框架,帮助我们在map和reduce之间传递数据,通过stdin和stdout. http://wenku.baidu.com/link?url=R1vj6NWV5nv_aVI8P0G5SNzxOyaDsffGeOJrRT6iA9iYHry3w60hJ9CVAtS1iRkh7IOYEuGozIqAZubfXybzf1URxTEY7a2gY9L3LTZQ0Wq

map reduce程序示例

package test2; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper

Hadoop实战——如何获取当前Map对象所在的block id

如题,或者获取split ID in the mapfunction. ========================================= InputSplit is = context.getInputSplit(); splitId = MD5Hash.digest(is.toString()).toString(); ------------------------------------------------------------------- lastSplit =

一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）

Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解Mapper和Reducer接口,应用通常须要提供map和reduce方法以实现他们. 接着我们须要对JobConf, JobClient,Partitioner,OutputCollector,Reporter,InputFormat,OutputFormat,OutputCommitter等进行讨

Hadoop学习：Map/Reduce初探与小Demo实现

一. 概念知识介绍 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架攻克了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,能够使没有并行处理或者分布式计算经验的project师,也能非常轻松地写出结构简单的.应用于成百上千台机器处理大规模数据的并行分布式程序. Hadoop MapReduce基于"分而治之"的思想,将计算任务抽象成map和reduce两个计算过程,能够简单理解为"分散运算-归并结果"的过程.一个 M

猜你喜欢

CodeBlocks VS2015编译环境设置

1. 菜单 Settings --> Compiler... 2. 设置vs 的安装路径设置vs 的头文件搜索路径设置vs 的库文件搜索路径

异常对象

内置异常和用户定义的异常,均可以用类或实例来表示,建议用类及实例来定义并捕获异常一.类异常的优点: 二.类异常的例子: 1. 继承了(超类)Excption 2. 定义的except General ...

经典dp 最长公共子序列

首先,说明一下子序列的定义…… 一个序列A={a1,a2,a3,...,an},从中删除任意若干项,剩余的序列叫A的一个子序列. 很明显(并不明显……),子序列……并不需要元素是连续的……(一开始的时 ...

内存泄漏，内存溢出

内存溢出(out of memory):指程序申请内存时,没有足够的空间供其使用: 内存泄漏(memory leak):指程序申请了一块内存,但是这块内存不能被释放. 内存泄漏最终会导致内存溢出. 内 ...

sjnfb《太傅大人，我错了》

http://qq.100bt.com/topic-16796245-1.html http://qq.100bt.com/topic-16796628-1.html http://qq.100bt. ...

按: 新公司前端后端,使用的数据化方式是protobuf (Protocol Buffer). 一,什么是Protobuf 官方文档给出的是: a language-neutral, platform ...

更新CentOS Mysql到官方较新版本[以6.5为例]

需求来源: CentOS: 6.9 x64 自带mysql版本较旧,需要卸载后安装到5.6版本. 1.查看目前mysql 版本 2.如果发现有系统自带mysql,而且比想要装的5.6旧.果断删除 # ...

Oracle学习系列2

SQL语法练习: 1,选择部门30中的所有员工 select * from emp where deptno=30; 2,列出办事员的姓名,编号和部门编号 select ename, empno, d ...

Android开发SQLite数据库的创建

package com.example.db; import android.content.Context; import android.database.sqlite.SQLiteDatabas ...

ubuntu系统之难

要讲解记录锁机制,首先要介绍fcntl函数,如下给出该函数原型: #include <fcntl.h> int fcntl(int filedes, int cmd, ... /* str ...

17997 Simple Counting 数学

17997 Simple Counting 时间限制:2000MS 内存限制:65535K提交次数:0 通过次数:0 题型: 编程题语言: 不限定 Description Ly is craz ...

虚拟继承中子类和父类的构造函数顺序1

这里的inter1,2,3.要写base2的构造函数 final也写,否则里面的数据未初始化 inert2写的原因是假如有人使用直接使用inert2,里面数据就可以初始化了总结一下,虚拟继承的基类就 ...

太极旋转-JS实现

刚学了js的一些函数,所以做了一个太极的旋转.做完之后是上面这个样子的,是可以旋转的. 思路: 1.先做一个基准转盘,之后将元素都放在转盘上,跟随转盘动. 2.画两个半圆,主要属性是border-to ...

node.js异步回调

假设A为异步函数,A有参数a和回调函数function(b),其中回调函数带有一个返回值b,A函数的调用方式则为A(a,function(b)),C为一个封装函数,其中调用了异步函数A.那么希望在外部 ...

HBase工程师线上工作经验总结----HBase常见问题及分析

阅读本文可以带着下面问题:1.HBase遇到问题,可以从几方面解决问题?2.HBase个别请求为什么很慢?你认为是什么原因?3.客户端读写请求为什么大量出错?该从哪方面来分析?4.大量服务端excep ...

小白书训练-Artificial Intelligence?

题目链接:http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...

QQ、手机号、微信、身份证、邮箱正则验证

QQ正则验证查了下,现在QQ的长度最长是10位数,验证格式为不以0开头的5-10位数字就可以了 var reg = /^[1-9]\d{4,9}$/; reg.test('0123456'); // ...

【转载】iOS麦克风录制音频并保存成mp3文件的Demo

转自 tusm 写的一个录屏Demo,在此贴下Demo的源代码方便使用使用的是AVFoundation 录制后麦克风输入的音频,录制结束后将数据转成了mp3格式并保存成文件 // // ViewCo ...

Java线程之 InterruptedException 异常

在测试Runnable 的时候,在run中使用了Thread.sleep(100),代码如下: while(true) { Thread.sleep(100); if(tickets>0) Sy ...

Android屏幕适配研究

在项目开发过程中,通常都要遇到屏幕适配的问题,以下就是我在项目的开发过程中总结出来的一套屏幕适配的方案,分享给大家: Android屏幕适配必须要理解的一些概念: px是英文单词pixel的缩写,意为 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.024 s.