大数据学习之提交job流程，分区和合并11

一：合并（mapTask的合并）

使用合并的注意事项：

（1）合并是一种特殊的Reducer
（2）合并是在Mapper端执行一次合并，用于减少Mapper输出到Reducer的数据量，可以提高效率。
（3）举例：以WordCount为例
（4）注意：一定要谨慎使用Combiner，有些不能使用：求平均值
有Combiner，或者没有Combiner，都不能改变Map和Reduce对应数据的类型

原理图：

1：maptask并行度与决定机制

2 maptask工作机制

3：代码改写：使用上回的WordCount程序。添加如下代码就行了

二：自定义分区

1：自定义一个Partition类（直接使用上次那个流量统计那个代码）

package it.dawn.YARNPra.flow流量汇总序列化.partition;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * @author Dawn
 * @date 2019年5月3日22:03:08
 * @version 1.0
 * 自定义一个分区
 */
public class PhonenumPartitioner extends Partitioner<Text, FlowBean>{

	//根据手机号前三位进行分区
	@Override
	public int getPartition(Text key, FlowBean value, int numpartitions) {
		//1.获取手机号前三位
		String phoneNum=key.toString().substring(0, 3);
		//2:分区
		int partitioner=4;

		if("135".equals(phoneNum)) {
			return 0;
		}else if("137".equals(phoneNum)){
			return 1;
		}else if("138".equals(phoneNum)) {
			return 2;
		}else if("139".equals(phoneNum)) {
			return 3;
		}

		return partitioner;
	}

}

2：在Driver类中添加Partiton的分区个数

3：运行结果

原文地址：https://www.cnblogs.com/hidamowang/p/10807118.html

时间： 2024-11-03 23:03:01

大数据学习之提交job流程，分区和合并11的相关文章

大数据学习之提交job流程，排序11

1实现接口->WritableCompareable 排序操作在hadoop中属于默认的行为.默认按照字典殊勋排序. 2 排序的分类: 1)部分排序 2)全排序 3)辅助排序 4)二次排序 3 案例: 在流量汇总输出文件里的数据进行分区,每个分区中的数据进行排序数据预览,这里只是进行了流量的汇总,没有进行分区和排序 1:编写flowbean 实现WritableCompareable完成序列化并且完成排序 package it.dawn.YARNPra.基本用法.排序; import ja

大数据学习的流程方案

大数据成为了当下发展的一种趋势,很多人去追求大数据的学习,但是苦于无从下手,今天编者根据自己的经验系统总结一下大数据学习的方略: 第一步:感性认识,找准思路 (1)看一些大数据发展及应用,了解市场形势 (2)阅读大数据相关书籍,了解知识架构对上面基本知识有一个了解过程之后,明确自己的思路,就可以进入下一步学习; 第二步:理论学习,扎实基础大数据平台学习路径: 预备课程 1. 大数据平台Linux基础 2. 大数据平台Java基础 3. 大数据平台Python基础基础课程 1. 大

大数据学习方向，从入门到精通

推荐一个大数据学习群 119599574晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,你愿意来学习吗很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么? 所有萌生入行的想法与想要学习Java的同学的初衷是一样的.岗位非常火,就业薪资比较高,,前景非常可观.基本都是这个原因而向往大数据,但是对大数据却不甚了解. 如果你想学习,那么首先你需要学会编

大数据学习之小白如何学大数据？（详细篇）

大数据这个话题热度一直高居不下,不仅是国家政策的扶持,也是科技顺应时代的发展.想要学习大数据,我们该怎么做呢?大数据学习路线是什么?先带大家了解一下大数据的特征以及发展方向. 大数据的三个发展方向,平台搭建/优化/运维/监控.大数据开发/设计/架构.数据分析/挖掘. 先说一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化.非结构化文本.日志.视频.图片.地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处

2019大数据学习方向【最新分享】

一.大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等.因为企业中的项目基本上都是使用Linux环境下搭建或部署的. 1)Linux系统概述2)系统安装及相关配置?3)Linux网络基础?4)OpenSSH实现网络安全连接?5)vi文本编辑器 6)用户和用户组管理7)磁盘管理?8)Linux文件和目录管理?9)Linux终端常用命令?10)linux系统监测与维护二.大数据开发核心技术 -

史上最全“大数据”学习资源整理

史上最全"大数据"学习资源整理当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据"一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明.新服务和新的发展机遇. 为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Aweso

大数据学习路线图让你精准掌握大数据技术学习？

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java

大数据学习路线指导，告诉你如何学习大数据

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图, ? ? 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处理类与核心技术.I/O

大数据学习路线让你精准掌握大数据技术学习

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处