hadoop集群自带WordCount例子

默认当前位置是hadoop安装包位置

jar包:share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar

一 前置准备

$ cd share/hadoop/mapreduce/

因为这个需要hdfs中的文件,需要掌握基本的hdfs命令 

HDFS基本的文件命令:
    格式: hadoop fs -cmd <args>
    其中,cmd代表具体的文件命令,与unix对应的命令相同,args表示可变的参数。
如,
    hadoop fs    ——获取完整的可用命令列表
    hadoop fs -ls /  ——返回根目录下/user的信息
    hadoop fs -lsr / ——返回根目录下所有文件和子目录
    hadoop fs -put example.txt . ——把本地文件复制到HDFS的默认目录中
    hadoop fs -put example.txt /user/hadoop
    hadoop fs -get example.txt . ——把HDFS中的文件复制到本地
    hadoop fs -cat                      ——在命令行中显示文件内容
    hadoop fs -rm                      ——删除文件
    hadoop fs -rmr                     ——删除目录

hdfs当前默认位置是在user/当前用户 文件夹 ,有些版本可能没有初始化这个文件夹 需要自己创建

$hadoop fs -mkdir /uesr
$hadoop fs -mkdir /uesr/xingluou

本地创建一个文本test用来比较,随便写几个单词

将这个本地文件复制到hdfs中

$ hadoop fs -put examples/test 

二 运行自带的WordCount

$ hadoop jar hadoop-mapreduce-examples-3.1.0.jar wordcount test out

程序运行完后 查看当前hadoop文件

发现除了我们自己put进来的test还多生成了一个out目录

查看part-r-00000这个文件

发现就是刚刚文本统计的结果

  

 

 三.遇到的问题以及解决方案

    1.运行自带的例子  提示找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

   解决方案:没有classpath导致的  添加classpath即可

   a)hadoop classpath 复制下来打印内容

   b)编辑 ${HADOOP_HOME}/etc/hadoop/yarn-site.xml 添加yarn.application.classpath,将刚刚查看到的classpath添加即可

原文地址:https://www.cnblogs.com/xingluo/p/9511684.html

时间: 2024-08-26 12:11:38

hadoop集群自带WordCount例子的相关文章

Hadoop集群WordCount详解

Hadoop集群WordCount详解 MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.MapReduce 理论介绍 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两

Hadoop集群 WordCount运行详解

1.MapReduce理论简介 1.1.MapReduce编程模式 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker:另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracke

Hadoop集群(第10期)_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编

Hadoop集群(第10期)_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装 第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导 第二步:在"I accept

Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园

body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;}

linux上部署hadoop集群系列 基础篇

介绍 这一系列博文介绍hadoop集群的部署和安装,因为hadoop确实比较复杂,所以分为几个部分来一一介绍.大致有基础篇,HA-QJM篇,Federation篇. 正文 一.操作环境 虚拟机4台,配置基于hadoop的集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通,Ip分布为: 168.5.15.112 hadoop1(Master) 168.5.15.116 hadoop2(Slave) 168.5.15.207 hadoop3(Slave) 1

Eclipse远程提交MapReduce任务到Hadoop集群

一.介绍 以前写完MapReduce任务以后总是打包上传到Hadoop集群,然后通过shell命令去启动任务,然后在各个节点上去查看Log日志文件,后来为了提高开发效率,需要找到通过Ecplise直接将MaprReduce任务直接提交到Hadoop集群中.该章节讲述用户如何从Eclipse的压缩包最终完成Eclipse提价任务给MapReduce集群. 二.详解 1.安装Eclipse,安装hadoop插件 (1)首先下载Eclipse的压缩包,然后可以从这里下载hadoop 2.7.1的ecp

为已存在的Hadoop集群配置HDFS Federation

一.实验目的 1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode. 2. 两个NameNode构成HDFS Federation. 3. 不重启现有集群,不影响数据访问. 二.实验环境 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台"干净"

大数据 -- Hadoop集群环境搭建

首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间. Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单