hadoop的第一次WordCount

1、新建MR工程

  

2、设置工程名字

  

3、finish

  

4、使用navicate浏览,使用package太长了。

  

5、将hadoop例子下的WordCount复制过来,当然我自己打的,重新熟悉一下。

  改改包名即可。

  一个示例完成。

6、linux下准备数据文件

  >hadoop dfs -mkdir /input (注意,如果你写成了input,则这个实际hadoop目录为/user/root/input,后面配置输入参数需要)

  >hadoop dfs -put core-site.xml /input 上传一个文件进入hadoop输入目录

  >hadoop dfs -mkdir /output 创建输出目录,注意一定是个空目录,否则hadoop运行报错。

  

7、配置WordCount的运行参数

  (如果直接创建的目录为input,而没有/则参数为/user/root/input /user/root/output)

  

8、运行(报错哎)

  WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

  ERROR security.UserGroupInformation: PriviledgedActionException as:Administrator cause:java.io.IOException: Failed to set permissions of path: \usr\local\hadoop\tmp\mapred\staging\Administrator13835705\.staging to 0700

  Exception in thread "main" java.io.IOException: Failed to set permissions of path: \usr\local\hadoop\tmp\mapred\staging\Administrator13835705\.staging to 0700

   at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)

  恩,注意第四句话,是在FileUtil.java的第689行报错的。关于权限设置的。

  如果我们将它注释掉,就不会影响了。

  注意:在linux下开发的话,不会有这个问题。

  解决方案:下载,我的文件下面有一个FileUtil.rar,解压这个文件,将里面的org文件夹复制到自己工程的src下。

9、重新运行Run As on hadoop

10、对话框Select Hadoop location

  选择我们配置的hadoop这个。

  finish

11、成功运行,输出

14/06/15 10:07:13 INFO mapred.LocalJobRunner: reduce > reduce
14/06/15 10:07:13 INFO mapred.Task: Task ‘attempt_local_0001_r_000000_0‘ done.
14/06/15 10:07:13 INFO mapred.JobClient:  map 100% reduce 100%
14/06/15 10:07:13 INFO mapred.JobClient: Job complete: job_local_0001
14/06/15 10:07:13 INFO mapred.JobClient: Counters: 19
14/06/15 10:07:13 INFO mapred.JobClient:   File Output Format Counters
14/06/15 10:07:13 INFO mapred.JobClient:     Bytes Written=370
14/06/15 10:07:13 INFO mapred.JobClient:   FileSystemCounters
14/06/15 10:07:13 INFO mapred.JobClient:     FILE_BYTES_READ=44614
14/06/15 10:07:13 INFO mapred.JobClient:     HDFS_BYTES_READ=848
14/06/15 10:07:13 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=177320
14/06/15 10:07:13 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=370
14/06/15 10:07:13 INFO mapred.JobClient:   File Input Format Counters
14/06/15 10:07:13 INFO mapred.JobClient:     Bytes Read=424
14/06/15 10:07:13 INFO mapred.JobClient:   Map-Reduce Framework
14/06/15 10:07:13 INFO mapred.JobClient:     Map output materialized bytes=464
14/06/15 10:07:13 INFO mapred.JobClient:     Map input records=15
14/06/15 10:07:13 INFO mapred.JobClient:     Reduce shuffle bytes=0
14/06/15 10:07:13 INFO mapred.JobClient:     Spilled Records=44
14/06/15 10:07:13 INFO mapred.JobClient:     Map output bytes=445
14/06/15 10:07:13 INFO mapred.JobClient:     Total committed heap usage (bytes)=328073216
14/06/15 10:07:13 INFO mapred.JobClient:     SPLIT_RAW_BYTES=103
14/06/15 10:07:13 INFO mapred.JobClient:     Combine input records=24
14/06/15 10:07:13 INFO mapred.JobClient:     Reduce input records=22
14/06/15 10:07:13 INFO mapred.JobClient:     Reduce input groups=22
14/06/15 10:07:13 INFO mapred.JobClient:     Combine output records=22
14/06/15 10:07:13 INFO mapred.JobClient:     Reduce output records=22
14/06/15 10:07:13 INFO mapred.JobClient:     Map output records=24

12、命令查看输出

  $ hadoop dfs -cat /output/*  (只会列出文件,隐藏的不显示)

13、重新执行WordCount

  ERROR security.UserGroupInformation: PriviledgedActionException as:Administrator cause:org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory /output already exists

  执行之前删除输出目录内容即可。

14、OK,第一次hadoop之旅成功开始。

hadoop的第一次WordCount,布布扣,bubuko.com

时间: 2024-12-22 12:29:06

hadoop的第一次WordCount的相关文章

Hadoop之MapReduce WordCount运行

搭建好Hadoop集群环境或者单机环境,并运行,MapReduce进程要起来 1. 假设已经配置了下列环境变量 export JAVA_HOME=/usr/java/default export PATH=$JAVA_HOME/bin:$PATH export HADOOP_CLASSPATH=$JAVA_HOME/lib/tools.jar 2.创建2个测试文件,并上传到Hadoop HDFS中 [[email protected]one temp]$ cat file01 Hello Wor

Hadoop入门经典:WordCount

以下程序在hadoop1.2.1上测试成功. 本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析. 一.源代码 package org.jediael.hadoopdemo.wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path;

运行Hadoop示例程序WordCount

WordCount程序的目标是统计几个文件中每个单词出现的次数,是官方提供的示例程序,这里使用的hadoop的版本为hadoop-1.2.1. 1).首先编写代码,将WordCount.java文件放到wordcount_classes文件夹中,代码如下: import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import

Hadoop集群WordCount详解

Hadoop集群WordCount详解 MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.MapReduce 理论介绍 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两

Hadoop3 在eclipse中访问hadoop并运行WordCount实例

前言:       毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么.       通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是: 1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功. http://www.cnblogs.com/Pur

运行第一个Hadoop程序,WordCount

系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. 在hadoop的安装文件夹 /usr/local/hadoop下创建input文件夹 [email protected]:/usr/local/hadoop$ mkdir ./input 然后copy几个文档到input文件夹中作为WordCount的输入 [email protected]:/u

eclipse下安装配置hadoop(含WordCount程序测试)

这里我为大家介绍如何在windows下安装配置hadoop.,以及测试一个程序 所需要使用的插件和分别有: 一.准备工作 1.eclipse,最好是JAVAEE版本的,以为可以改变模式. 2.hadoop和eclipse的连接器: hadoop-eclipse-plugin-1.2.1.jar(这个是我所使用的,在这里可以自定义选取版本) 3.是hadoop源码包(下载最新的就可以). 将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下

Hadoop学习笔记——WordCount

1.在IDEA下新建工程,选择from Mevan GroupId:WordCount ArtifactId:com.hadoop.1st Project name:WordCount 2.pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Hadoop MapReduce(WordCount) Java编程

编写WordCount程序数据如下: hello beijing hello shanghai hello chongqing hello tianjin hello guangzhou hello shenzhen ... 1.WCMapper: package com.hadoop.testHadoop; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop