Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

需求

  计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。

  比如,输入一个文件,其内容如下:

  hello world

  hello hadoop

  hello mapreduce

  对应上面给出的输入样例,其输出样例为:

  hadoop 1

  hello 3

  mapreduce 1

  world 1

方案制定

  对该案例,可设计出如下的MapReduce方案:

  1. Map阶段各节点完成由输入数据到单词切分的工作

  2. shuffle阶段完成相同单词的聚集再到分发到各个Reduce节点的工作 (shuffle阶段是MapReduce的默认过程)

  3. Reduce阶段负责接收所有单词并计算各自频数

小结

  WordCount是一个很经典的Hadoop示例,它虽然简单,但具有很大的代表性。

  从某个程度上来说也反映了其设计的初衷,对日志文件的分析。

时间: 2024-10-18 00:22:39

Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)的相关文章

第六篇:Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

需求 计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello hadoop hello mapreduce 另一内容如下: bye world bye hadoop bye mapreduce 对应上面给出的输入样例,其输出样例为: bye   3 hadoop 2 hello 3 mapreduce 2 world 2 方案制定 对该案例,可设计出如下的MapRe

运行Hadoop自带的wordcount单词统计程序

0.前言 前面一篇<Hadoop初体验:快速搭建Hadoop伪分布式环境>搭建了一个Hadoop的环境,现在就使用Hadoop自带的wordcount程序来做单词统计的案例. 1.使用示例程序实现单词统计 (1)wordcount程序 wordcount程序在hadoop的share目录下,如下: [[email protected] mapreduce]# pwd /usr/local/hadoop/share/hadoop/mapreduce [[email protected] mapr

第二章 mac上运行第一个appium实例

一.打开appium客户端工具 1      检查环境是否正常运行: 点击左边第三个图标 这是测试你环境是否都配置成功了 2      执行的过程中,遇到Could not detect Mac OS X Version from sw_vers output: '10.12.1', 原因是appium还没兼容10.10以上的系统 修改兼容适配之后,继续创建ios模拟器

用Spark写一个简单的wordcount词频统计程序

public class WordCountLocal {  public static void main(String[] args) {   SparkConf conf = new SparkConf().setAppName("WordCountLocal").setMaster("local[2]");      JavaSparkContext sc = new JavaSparkContext(conf);   JavaRDD<String&g

运行第一个Hadoop程序,WordCount

系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. 在hadoop的安装文件夹 /usr/local/hadoop下创建input文件夹 [email protected]:/usr/local/hadoop$ mkdir ./input 然后copy几个文档到input文件夹中作为WordCount的输入 [email protected]:/u

在Eclipse中运行、配置Hadoop

版权所有: [email protected]  严禁转载! 1.安装插件 准备程序: eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse) hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下) 将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse. 2.打开MapReduce视图 Window ->

Hadoop基础学习(一)分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出. 但是好像以前在南大上学时学习的Hadoop都忘记得差不多了,所以找到以前上课做的几个实验:wordCount,PageRank以及InversedIndex.

mac上eclipse上运行word count

1.打开eclipse之后,建立wordcount项目 package wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.had

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学