hadoop 8步走

1.1读取hdfs中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数        解析成2个<k,v>,分别是<0, hello you><10, hello me>。调用2次map函数。

1、读文件解析                                                                                            <k1,v1>

1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出            public void map(k, v, ctx){

String[] splited = v.split("\t");

2、覆盖map,原始k、v  变新k、v                                                            for(String word : splited){

ctx.write(word, 1);

}

1.3 对1.2输出的<k,v>进行分区。默认分为1个区。                                           }

3、  <k,v>进行分区                                                                           <k2,v2>

1.4 对不同分区中的数据进行排序(按照k)、分组。分组指的是相同key的value放到一个集合中。        map输出后的数据是:<hello,1>,<you,1>,<hello,1>,<me,1>

4、k、v排序、分组                                                                                          排序后是:<hello,1>,<hello,1>,<me,1>,<you,1>

分组后是:<hello,{1,1}>,<me,{1}>,<you,{1}>

1.5 (可选)对分组后的数据进行规约。

5、规约

2.1 多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。

6、map输出到reduce                                                                                  //reduce函数被调用的次数是3

2.2 对多个map的输出进行合并、排序。覆盖reduce函数接收的是分组后的数据,              public void reduce(k,vs, ctx){

实现自己的业务逻辑,处理后,产生新的<k,v>输出。                                             long sum = 0L;

for(long times : vs){

7、合并、排序                                                                                           sum += times;

}

ctx.write(k, sum);

}

<k3,v3>

2.3 对reduce输出的<k,v>写到hdfs中。                                                           hello   2

me      1

8、k、v写回hdfs                                                                               you     1

时间: 2024-12-06 11:57:53

hadoop 8步走的相关文章

高效5步走,快速搭建Hadoop2伪分布环境

前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对"伪分布式"说声 呵呵吧. 前期的jdk环境.SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配置.本文Hadoop2配置文件路径:/usr/local/hadoop/etc/hadoop. 开启Hadoo

以MapReduce编程五步走为基础,说MapReduce工作原理

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map--分,一部分是Reduce--合 MapReduce全过程的数据都是以键值对的形式存在的如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 首先,我们假设我们有一个文件,文件中存了以下内容 hive spark hive hbas

vim--之初学轻松几步走

(声明:此篇之针对Ubuntu等linux用户)vim 使用的三种模式:1.一般指令模式2.编辑模式3.指令列命令模式 vim的轻松几步走:简单命令:(我认为放在前面比较利于初学者使用)ctrl+D 显示当前首字母的所有命令(这个好用)<TAB>命令补全键(更好用,写出了前几个字母直接tab就帮你补好了你要写的内容):!ls或:!dir查看当前目录下存在的文件:e回到起始目录help user-manual 不知道的就help 方向:h.j.k.l.左上下右(或者直接按键盘方向键亦可)插入类:

80后女孩买房三步走 短期增值是首步 资金 增值 理财_新浪财经_新浪网

三湘华声全媒体记者 梁兴 通讯员 王茜 [个案资料] 尹婵,今年28岁,是长沙一名普通的公司职员.步入社会5年以来,月收入一直在4500元左右,但因勤俭节约,月结余能达到3000元,年终奖5000元.目前有存款18万元,有"五险一金",无任何商业保险. 尹婵是土生土长的长沙姑娘,父母工资收入稳定.由于工作后仍和父母一起居住,不需要承担房租或房贷.虽然父母乐意提供食宿,但是尹婵不想做"啃老族",每月给父母800元"搭伙费". [财务诊断] 尹婵工作

《软件需求十步走》阅读笔记六

本次阅读笔记写一下<软件构造十步走>最后一篇<组织篇>. 本篇共分为四章,分别是建立需求分析体系,需求分析部门的组织结构,需求分析部门的管理工作,需求分析部门的业务工作. 首先是<建立需求分析体系>. 长期以来"轻业务.重技术"的理念根深蒂固,而解决措施是建立一个专业从事软件需求分析的独立部门来承担这项工作.此部门是介于业务部门和技术部门之间的,专门负责对组织自身业务.客户业务.客户对象和竞争对手的研究,然后将其转换成提供给技术部门的软件需求规格说明

《软件需求十步走》阅读笔记二

这一段时间阅读了<软件需求分析十步走>的第三四章,写一写书中一些个人感觉比较好的说法以及阅读感受. 首先是第三章<软件需求工程概论>. 需求工程和软件工程之间的关系界定没有质的变化,只是将需求工程从软件工程中剥离出来,将需求分析的分析工作和管理工作定义为需求工程.需求工程是面向全局的.系统顶层的.着眼未来的工程,是将客户业务作为内部研究对象,将软件工程全过程作为外部研究对象的工程.需求工程是圆心,软件工程是圆点. 需求工程的特征具有:全局性.主导性.主动性.过程性.规范性.可验证性

ping排错三步走

ping排错三步走--------- 每次访问目标主机的过程是这样的: 客户端->网关->DNS->客户端(拿着解析出来的IP)->目标服务器 所以当ping不通的时候,就从这三个地方找问题,有以下三种可能: (1)网关不通 (2)DNS域名解析服务器不通 (3)主机服务器不通 一:ping 网关,如果网关不通: 可能原因:(1)网卡没起来 (2)网线断了 排查方式: (1)查看本地ip地址`ifconfig` ,是不是没连上网. (2)查看路由表`route -n` 是否有相同网

Ceph对象存储RGW对接企业级网盘OwnCloud三步走

上篇文章我们把Ceph对象存储搭建成功了,但是成功了之后我们怎么用呢?下面我们本文就来讲下Ceph对象存储对接企业私有云网盘OwnCloud. OwnCloud分为企业版和社区版,我们只说社区版,在这里我就不多赘述了. 那么Ceph对接OwnCloud分三步走. 第一:安装Ceph配置RGW对象存储 第二:安装OwnCloud 第三:对接 第一步在上个文章里面已经做了,那么第二步是安装OwnCloud,可以看下我之前的文章进行安装. 如何搭建OwnCloud网盘 主要讲下第三步 要点:网盘节点D

万步走

每天万步走似乎是一个健康标准,成为各类运动手环.运动app的初始默认值,应该是一个适合各类人群的数字,这在以往很容易达到,然而这段密集的加班让我对这个数字有些望尘莫及,随着高峰期逐渐过渡到尾声,今天居然久违的突破了一次,实在有必要纪念一下. 每天万步走应该是每天必须要达到的运动量,其实只要上下班坐地铁,两头到地铁的距离加起来就差不多过万了,这个活动量还真不大. 今天是农历十五,晚上有号称最大的月亮,开完周会走出办公楼,天气也特别给力,空旷透亮,一轮明月呈现在眼前,真是又大又圆.朋友圈里有各种晒图