hadoop集群自带WordCount例子

默认当前位置是hadoop安装包位置

jar包：share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar

一前置准备

$ cd share/hadoop/mapreduce/

因为这个需要hdfs中的文件，需要掌握基本的hdfs命令　

HDFS基本的文件命令：
    格式： hadoop fs -cmd <args>
    其中，cmd代表具体的文件命令，与unix对应的命令相同，args表示可变的参数。
如，
    hadoop fs    ——获取完整的可用命令列表
    hadoop fs -ls /  ——返回根目录下/user的信息
    hadoop fs -lsr / ——返回根目录下所有文件和子目录
    hadoop fs -put example.txt . ——把本地文件复制到HDFS的默认目录中
    hadoop fs -put example.txt /user/hadoop
    hadoop fs -get example.txt . ——把HDFS中的文件复制到本地
    hadoop fs -cat                      ——在命令行中显示文件内容
    hadoop fs -rm                      ——删除文件
    hadoop fs -rmr                     ——删除目录

hdfs当前默认位置是在user/当前用户文件夹，有些版本可能没有初始化这个文件夹需要自己创建

$hadoop fs -mkdir /uesr
$hadoop fs -mkdir /uesr/xingluou

本地创建一个文本test用来比较，随便写几个单词

将这个本地文件复制到hdfs中

$ hadoop fs -put examples/test

二运行自带的WordCount

$ hadoop jar hadoop-mapreduce-examples-3.1.0.jar wordcount test out

程序运行完后查看当前hadoop文件

发现除了我们自己put进来的test还多生成了一个out目录

查看part-r-00000这个文件

发现就是刚刚文本统计的结果

　三.遇到的问题以及解决方案

　　　 1.运行自带的例子提示找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

　　　解决方案：没有classpath导致的添加classpath即可

　　　a)hadoop classpath 复制下来打印内容

　　　b）编辑 ${HADOOP_HOME}/etc/hadoop/yarn-site.xml 添加yarn.application.classpath,将刚刚查看到的classpath添加即可

原文地址：https://www.cnblogs.com/xingluo/p/9511684.html

时间： 2024-11-09 19:21:05

hadoop集群自带WordCount例子的相关文章

Hadoop集群WordCount详解

Hadoop集群WordCount详解 MapReduce理论介绍 MapReduce处理过程 MapReduce代码 1.MapReduce 理论介绍 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两

Hadoop集群 WordCount运行详解

1.MapReduce理论简介 1.1.MapReduce编程模式 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单地说,MapReduce就是"任务的分解与结果的汇总". 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker:另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracke

Hadoop集群（第10期）_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编

Hadoop集群（第10期）_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导第二步:在"I accept

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园

body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;}

linux上部署hadoop集群系列基础篇

介绍这一系列博文介绍hadoop集群的部署和安装,因为hadoop确实比较复杂,所以分为几个部分来一一介绍.大致有基础篇,HA-QJM篇,Federation篇. 正文一.操作环境虚拟机4台,配置基于hadoop的集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通,Ip分布为: 168.5.15.112 hadoop1(Master) 168.5.15.116 hadoop2(Slave) 168.5.15.207 hadoop3(Slave) 1

Eclipse远程提交MapReduce任务到Hadoop集群

一.介绍以前写完MapReduce任务以后总是打包上传到Hadoop集群,然后通过shell命令去启动任务,然后在各个节点上去查看Log日志文件,后来为了提高开发效率,需要找到通过Ecplise直接将MaprReduce任务直接提交到Hadoop集群中.该章节讲述用户如何从Eclipse的压缩包最终完成Eclipse提价任务给MapReduce集群. 二.详解 1.安装Eclipse,安装hadoop插件 (1)首先下载Eclipse的压缩包,然后可以从这里下载hadoop 2.7.1的ecp

为已存在的Hadoop集群配置HDFS Federation

一.实验目的 1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode. 2. 两个NameNode构成HDFS Federation. 3. 不重启现有集群,不影响数据访问. 二.实验环境 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台"干净"

大数据 -- Hadoop集群环境搭建

首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间. Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单