标准wordcount

package wordcount;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount{

public static class WordMap extends Mapper<Object,Text,Text,IntWritable>{

private final static IntWritable one=new IntWritable(1);

private Text word = new Text();

public void map(Object key,Text value,Context context)throws IOException,InterruptedException{

String line=value.toString();

StringTokenizer tokenizer = new StringTokenizer(line);

while(tokenizer.hasMoreTokens()){

word.set(tokenizer.nextToken());

context.write(word, one);

}

public static class WordReduce extends Reducer<Text,IntWritable,Text,IntWritable>{

private IntWritable result =new IntWritable();

public void reduce(Text key,Iterable<IntWritable>values,Context context)

throws IOException,InterruptedException{

int sum=0;

for(IntWritable val:values)

{

sum+=val.get();

}

result.set(sum);

context.write(key,result);

}

public static void main(String[]args)throws Exception

{

Configuration conf =new Configuration();

Job job =new Job(conf,"WordCount");

job.setJarByClass(WordMap.class);

job.setMapperClass(WordMap.class);

job.setReducerClass(WordReduce.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job,new Path(args[0]));

FileOutputFormat.setOutputPath(job,new Path(args[1]));//setOutputPath(job,new Path(args[1]));

System.exit(job.waitForCompletion(true)?0:1);

}

标准wordcount

时间： 2024-10-09 12:20:44

标准wordcount的相关文章

MapReduce剖析笔记之一：从WordCount理解MapReduce的几个阶段

WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path

5.hadoop流原理、实例和新旧API下Wordcount详解

前四篇文章讲了Hadoop的配置和测试以及eclipse下的使用,有兴趣的可以先看下. 1.Hadoop流简介用可执行文件作为Mapper和Reducer,接受的都是标准输入,输出的都是标准输出. 当一个可执行文件作为Mapper时,每一个Map任务会以一个独立的进程启动这个可执行文件,然后在Map任务运行时,会把输入切分成行提供给可执行文件,并作为它的标准输入(stdin)内容.当可执行文件运行出结果时,Map从标准输出(stdout)中收集数据,并将其转化为<key, value>对

WordCount运行详解

转自:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的

mrunit for wordcount demo

import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mrunit.mapreduce.MapDriver; i

hadoop1 和haddop2 mapperreducer的wordcount详解

转 mapreduce中wordcount详细介绍(包括hadoop1和hadoop2版本) 发表于1年前(2014-04-24 10:08) 阅读(1458) | 评论(0) 1人收藏此文章, 我要收藏赞0 5月23日西安 OSC 源创会开始报名啦,存储.虚拟机.Docker 等干货分享摘要 mapreduce中wordcount详细介绍(包括hadoop1和hadoop2版本) mapreduce中wordcount详细介绍(包括hadoop1和hadoop2版本) 目录[-] 1

Hadoop集群WordCount详解

Hadoop集群WordCount详解 MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.MapReduce 理论介绍 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两

软件质量与测试第4周小组作业:WordCount优化

软件质量与测试第4周小组作业:WordCount优化一.GitHub地址 https://github.com/fusidic/WC 二.PSP表格 PSP2.1 PSP阶段预估耗时(分钟) 实际耗时(分钟) Planning 计划 30 20 · Estimate · 估计这个任务需要多少时间 30 20 Development 开发 470 550 · Analysis · 需求分析 (包括学习新技术) 30 20 · Design Spec · 生成设计文档 20 20 · Desig

第4周小组作业 WordCount优化

github地址:https://github.com/husterC/WordCountGroupwork PSP表格 PSP2.1 PSP阶段预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 20 20 · Estimate · 估计这个任务需要多少时间 15 10 Development 开发 60 40 · Analysis · 需求分析 (包括学习新技术) 60 90 · Design Spec · 生成设计文档 - - · Design Revie

个人项目 - wordCount（Java实现）

wordCount 1. 项目相关要求项目Github地址这个项目要求写一个命令行程序 ,它能正确统计程序文件中的字符数.单词数.行数,以及还具备其他扩展功能,并能够快速地处理多个文件. 作为实战项目,我完成的要求如下: 基本功能 -c 统计字符数(支持√) -w 统计单词数(支持√) -l 统计行数(支持√) 扩展功能 -s 递归处理目录下符合条件的文件(支持√) -a 返回更复杂的数据--代码行 / 空行 / 注释行(支持√) 支持各种文件的通配符(支持√) 高级功能基本的Window