maprduce 中reduce数量

    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {
        String prefix = key.toString().substring(0, 3);
        Integer provinceId = proviceDict.get(prefix);

        return provinceId==null?4:provinceId;
    }

在hadoop 默认的是hashpartitioner,简单的例子是用hashcode除以numPartitions的数量,这样在数据均匀的前提下,数据可以被均匀的分到每个reduce中.

还有一种情况是不按照numPartitions而是根据业务来判断的,比如按照订单的类别,将同一类别的订单数据发送到同一个reduce中,将同一个省份的电话号码的数据发送到到同一reduce中

此时在计算式就没有利用numpartiton,在代码中执行reducenumber时也要根据业务场景来指定

时间： 2024-10-13 21:18:29

maprduce 中reduce数量的相关文章

Hadoop 中关于 map，reduce 数量设置

map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败.所以用户在提交map/reduce作业时应该在一个合理的范围内,这样既可以增强系统负载匀衡,也可以降低任务失败的开销

Hadoop中maptask数量的决定因素

刚开始接触hadoop平台的时候部分初学者对于mapreduce中的maptask的数量是怎么确定的可能有点迷惑,如果看了jobclient里面的maptask初始化的那段源码,那么就比较清楚了,MapTask的数量是由InputFormat来指定的,InputFormat生成多少个InputSpilt就会有多少个task. 因此,如果剩余Map slot的数量大于InputSpilt的数量,那么就启动的Map数量就是InputSplit的数量. 如果剩余Map slot的数量小于Input

统计APK中方法数量

Android开发中有对APK的方法数量做限制,不能超过65536.如果超过了该数目,会遇到如下异常: Conversion to Dalvikformat failed:Unable toexecute dex: method ID not in [0, 0xffff]: 65536 之所以出现上述问题,主要原因在于Android系统中,方法id存储在Dex文件中使用的是short类型数据,所以导致了dex中方法不能超过65k. 知道了上面的限制,那么如何知道生成的APK的方法数量呢?以及如何

MapReduce中Map数量的控制

InputFormat这个类是用来处理Map的输入数据的,任务开始时,InputFormat先将HDFS里所有输入文件里的数据分割成逻辑上的InputSpilt对象这里的split是HDFS中block的部分或者一整块或几个快中的数据的逻辑分割,一个split对应于一个Map,所以Map的数量是由split的数量决定的. 那么怎样去确定InputSpilt的个数呢,下面列出于split个数相关的配置参数: numSplits:来自job.getNumMapTasks(),即在job启动时用or

统计apk或jar中方法数量

一.apk中方法数量 ./android-sdk-linux/build-tools/23.0.2/dexdump -f apk路径 | grep method_ids_size 二.jar中方法数量(转载) #! /bin/sh # 获得输入的jar文件 JAR_FILE=$1; # 这里直接使用dx命令,是因为我已经提前配置好了环境变量,dx目录位于: # $ANDROID_HOME/sdk/build-tools/android-4.3.1/dx dx --dex --verbose -

关于Mapreduce On Yarn中Map数量的设置

同事最近对MR on Yarn中Map数量的一个小的研究,描述如下: 在新版MapReduce 中即 MR on yarn中,不支持设置Map数量. Map的数量是由MinInputSplitSize决定的,公式: Map的数量 = TotalSize / MinInputSplitSize 要想控制Map的数量,可以通过控制MinInputSplitSize大小来控制Map数量. 如果设置的MinInputSplitSize大于BlockSize,MinInputSplitSize即为设置的值

POJ 1979 Red and Black(DFS 连通块中元素数量)

题意求矩阵中包含'@'的'.'连通块中元素数量 '@'也看做'.' 最基础的dfs了 #include<cstdio> #include<cstring> using namespace std; const int N = 30; char mat[N][N]; int dx[4] = {0, 0, -1, 1}, dy[4] = { -1, 1, 0, 0}; int ans; void dfs(int r, int c) { if(mat[r][c] != '.') r

SharePoint中取得ACL和组中用户数量

SharePoint中取得ACL和组中用户数量 1. 取得ACL的数量: select COUNT(ra.PrincipalId) as [Count],p.ScopeUrl from [WSS_Content_80].[dbo].[RoleAssignment] ra with(nolock) join [WSS_Content_80].[dbo].[Perms] p with(nolock) on p.SiteId = ra.SiteId and p.ScopeId = ra.ScopeI

关于Array中reduce的实际应用

// 数组中所有值求和 let arr = [0, 1, 2, 3] let sum = arr.reduce((accumulator, currentValue)=> { return accumulator + currentValue; }, 0); console.log(sum) // 二位数组转化为一维数组 let array2 = [[0, 1], [2, 3], [4, 5]] let array = array2.reduce((first, last) => { retu