大数据系列之分布式计算批处理引擎MapReduce实践

关于MR的工作原理不做过多叙述，本文将对MapReduce的实例WordCount(单词计数程序)做实践，从而理解MapReduce的工作机制。

WordCount:

　　1.应用场景，在大量文件中存储了单词，单词之间用空格分隔

　　2.类似场景：搜索引擎中，统计最流行的N个搜索词，统计搜索词频率，帮助优化搜索词提示。

　　3.采用MapReduce执行过程如图

　　　　　3.1MapReduce将作业的整个运行过程分为两个阶段

　　　　　　　　3.1.1Map阶段和Reduce阶段

　　　　　　　　　　　　Map阶段由一定数量的Map Task组成

　　　　　　　　　　　　输入数据格式解析：InputFormat

　　　　　　　　　　　　输入数据处理：Mapper

　　　　　　　　　　　　数据分组：Partitioner

　　　　　　　　3.1.2Reduce阶段由一定数量的Reduce Task组成

　　　　　　　　　　　　数据远程拷贝

　　　　　　　　　　　　数据按照key排序

　　　　　　　　　　　　数据处理：Reducer

　　　　　　　　　　　　数据输出格式：OutputFormat

　　4.介绍代码结构

　　4.1 pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>hadoop</groupId>
    <artifactId>hadoop.mapreduce</artifactId>
    <version>1.0-SNAPSHOT</version>

    <repositories>
        <repository>
            <id>aliyun</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        </repository>
    </repositories>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-yarn-client</artifactId>
            <version>2.7.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
            <version>2.7.3</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.3</version>
                <configuration>
                    <classifier>dist</classifier>
                    <appendAssemblyId>true</appendAssemblyId>
                    <descriptorRefs>
                        <descriptor>jar-with-dependencies</descriptor>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

　　4.2 WordCount.java

package hadoop.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;

public class WordCount {

    public static class WordCountMap
            extends Mapper<Object, Text, Text, IntWritable> {

        public void map(Object key,Text value, Context context) throws IOException, InterruptedException {
            //在此处写map代码
            String[] lines = value.toString().split(" ");
            for (String word : lines) {
                context.write(new Text(word), new IntWritable(1));
            }
        }
    }

    public static class WordCountReducer
            extends Reducer<Text, IntWritable, Text, IntWritable> {

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            //在此处写reduce代码
            int count=0;
            for (IntWritable cn : values) {
                count=count+cn.get();
            }
            context.write(key, new IntWritable(count));
        }
    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        //设置输入路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //设置输出路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //设置实现map函数的类
        job.setMapperClass(WordCountMap.class);
        //设置实现reduce函数的类
        job.setReducerClass(WordCountReducer.class);

        //设置map阶段产生的key和value的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置reduce阶段产生的key和value的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //提交job
        job.waitForCompletion(true);

        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job,new Path(otherArgs[otherArgs.length - 1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

　　4.3 data目录下文件内容：

　　　　to.txt

hadoop spark hive hbase hive

　　　t1.txt

hive spark mapReduce spark

　　 t2.txt

sqoop spark hadoop

5. 数据准备

　　5.1 maven 打jar包为hadoop.mapreduce-1.0-SNAPSHOT.jar，传入master服务器上

　　5.2 将需要计算的数据文件放入datajar/in （临时目录无所谓在哪里）

　　5.3 启动hadoop ，关于hadoop安装可参考我写的文章大数据系列之Hadoop分布式集群部署

　　　　将datajar/in文件传至hdfs 上

hadoop fs -put in /in  #查看文件hadoop fs -ls -R /in

　5.4 执行jar

　　两种命令方式

#第一种：hadoop jar
hadoop jar hadoop.mapreduce-1.0-SNAPSHOT.jar hadoop.mapreduce.WordCount /in/* /out

#OR
#第二种：yarn jar
yarn jar hadoop.mapreduce-1.0-SNAPSHOT.jar hadoop.mapreduce.WordCount /in/* /yarnOut

　　5.5.执行后输出内容分别如图

hadoop jar ...结果

yarn jar ... 结果

　6.查看结果内容

#查看hadoop ja 执行后输出结果目录
hadoop fs -ls -R /out

#查看yarn jar 执行后输出结果目录
hadoop fs -ls -R /yarnOut

　　目录说明：目录中_SUCCESS 是日志文件，part-r-00000是计算结果文件

　　查看计算结果

#查看out/part-r-00000文件
 hadoop fs -text /out/part-r-00000

#查看yarnOut/part-r-00000文件
 hadoop fs -text /yarnOut/part-r-00000

完~~~,Java代码内容已上传至GitHub https://github.com/fzmeng/MapReduceDemo

时间： 2024-10-24 23:09:44

大数据系列之分布式计算批处理引擎MapReduce实践的相关文章

大数据系列之分布式计算批处理引擎MapReduce实践-排序

清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. 博文发表后很多同学私下反映对于MapReduce的处理原理没有了解到.在这篇博文中楼主与大家交流下MapReduce的数据处理原理及MR中各角色的职责. 文末还有示例代码讲解.. 1.MapReduce中的数据流动最简单的过程: map - reduce 定制了partitioner以将map的结

大数据系列之数据仓库Hive原理

Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用及JDBC连接 Hive的工作原理简单来说就是一个查询引擎先来一张Hive的架构图: Hive的工作原理如下: 接收到一个sql,后面做的事情包括:1.词法分析/语法分析使用antlr将SQL语句解析成抽象语法树-AST2.语义分析从Megastore获取模式信息,验证SQL语句中队表名,列名

大数据系列（2）——Hadoop集群坏境CentOS安装

前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程因为我的笔记本是Window7操作系统,然后内存配置,只有8G,内存配置太低了,当然为了演示,我会将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置. 所有的节点存储我都设置为50GB. 在安装操作系统之前,我们需要

大数据系列（3）——Hadoop集群完全分布式坏境搭建

前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程我们先来回顾上一篇我们完成的单节点的Hadoop环境配置,已经配置了一个CentOS 6.8 并且完成了java运行环境的搭建,Hosts文件的配置.计算机名等诸多细节. 其实完成这一步之后我们就已经完成了Had

大数据系列之数据仓库Hive安装

Hive主要分为以下几个部分 ?户接口1.包括CLI,JDBC/ODBC,WebUI元数据存储(metastore)1.默认存储在?带的数据库derby中,线上使?时?般换为MySQL驱动器(Driver)1.解释器.编译器.优化器.执?器Hadoop1.?MapReduce 进?计算,?HDFS 进?存储前提部分:Hive的安装需要在Hadoop已经成功安装且成功启动的基础上进行安装.若没有安装请移步至大数据系列之Hadoop分布式集群部署. 使用包: apache-hive-2.1.1-b

大数据系列之三：大数据体系架构的重要里程碑

欧凯惯例:引子世界上唯一不变的就是变化,大数据的架构也不例外. 这次变化的推动者,多是一些大的商业公司! 首发地址 --- Teradata 美国天睿 Teradata这家公司其实挺陌生的,但这并不能让我们忽视其在大数据方面做出的贡献.简单一句描述这家公司的贡献就是: 2008年之前,这家公司以关系型为基础,硬刚大数据,之后意识到数据实在太大大复杂了,终究实现了对非关系型数据的支持. 具体它拿关系型作为对大数据的解决方案硬刚到什么程度呢?拿一个数据说来说明白了,直到2017年,它可以基于其关系

玩转大数据系列之Apache Pig高级技能之函数编程（六）

原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Apache Pig如何自定义UDF函数? Apache Pig5行代码怎么实现Hadoop的WordCount? Apache Pig入门学习文档(一) Apache Pig学习笔记(二) Apache Pig学习笔记之内置函数(三) 玩转大数据系列之Apache Pig如何与Apache Lucen

大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践

之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下: 1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] 启动正常情况下安装,hadoop安装可参考LZ的文章大数据系列之Hadoop分布式集群部署 2. 资料包 zookeeper-3.4.9.tar.gz,hbase-1.2.4-bin.tar.gz 2. 安装步骤: 1.安装zookeeper 1.解压zookeeper-3.4.9.tar.gz

一步一步学习大数据系列

概要一步一步学习大数据系列包括: 一步一步学习大数据系列之 Linux 一步一步学习大数据系列之 Linux 01-Linux 系统安装 02-Linux 图形界面及文件系统结构介绍 03-局域网工作机制和网络地址配置 04-vmware 虚拟网络的配置 05-Linux 网络配置及 CRT 远程连接06- Linux常用命令 09-SSH免密登录配置. 10-CRT 工具设置 11 -more service- chkconfig 命令12.Linux软件安装一步一步学习大数据系列之 H