在windows远程提交任务给Hadoop集群(Hadoop 2.6)

我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群。希望在windows7上面使用IDEA开发mapreduce程序,然后提交的远程的Hadoop集群上执行。经过不懈的google终于搞定

开始我使用hadoop的eclipse插件来执行job,竟然成功了,后来发现mapreduce是在本地执行的,根本没有提交到集群上。我把hadoop的4个配置文件加上后就开始出现了问题。

1:org.apache.hadoop.util.Shell$ExitCodeException: /bin/bash: line 0: fg: no job control

网上说要修改源码,在Hadoop2.6已经合并了那个补丁。这个错误怎么解决的也忘记了

2:Stack trace: ExitCodeException exitCode=1:

3:Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

4:Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class WordCount$Map not found

按照我的步骤走,这些问题都能解决,我使用的IDE是IDEA

1:复制Hadoop的4个配置文件放到src目录下面:core-site.xml,hdfs-site.xml,log4j.properties,mapred-site.xml,yarn-site.xml

2:配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapred.remote.os</name>
        <value>Linux</value>
    </property>
    <property>
        <name>mapreduce.app-submission.cross-platform</name>
        <value>true</value>
    </property>
    <property>
    <name>mapreduce.application.classpath</name>
    <value>
        /opt/hadoop-2.6.0/etc/hadoop,
        /opt/hadoop-2.6.0/share/hadoop/common/*,
        /opt/hadoop-2.6.0/share/hadoop/common/lib/*,
        /opt/hadoop-2.6.0/share/hadoop/hdfs/*,
        /opt/hadoop-2.6.0/share/hadoop/hdfs/lib/*,
        /opt/hadoop-2.6.0/share/hadoop/mapreduce/*,
        /opt/hadoop-2.6.0/share/hadoop/mapreduce/lib/*,
        /opt/hadoop-2.6.0/share/hadoop/yarn/*,
        /opt/hadoop-2.6.0/share/hadoop/yarn/lib/*
    </value>
</property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
       <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
        </property>
</configuration>

注意mapreduce.application.classpath一定是绝对路径,不要搞什么$HADOOP_HOME,我这里反正是报错的

3:修改yarn-site.xml

  1. <configuration>
    <!-- Site specific YARN configuration properties -->
      <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.address</name>
            <value>master:8032</value>
        </property>
    <property>
        <name>yarn.application.classpath</name>
        <value>
            /opt/hadoop-2.6.0/etc/hadoop,
            /opt/hadoop-2.6.0/share/hadoop/common/*,
            /opt/hadoop-2.6.0/share/hadoop/common/lib/*,
            /opt/hadoop-2.6.0/share/hadoop/hdfs/*,
            /opt/hadoop-2.6.0/share/hadoop/hdfs/lib/*,
            /opt/hadoop-2.6.0/share/hadoop/mapreduce/*,
            /opt/hadoop-2.6.0/share/hadoop/mapreduce/lib/*,
            /opt/hadoop-2.6.0/share/hadoop/yarn/*,
            /opt/hadoop-2.6.0/share/hadoop/yarn/lib/*
        </value>
      </property>
    </configuration>


注意yarn.application.classpath一定是绝对路径,不要搞什么$HADOOP_HOME

4:看下我的代码

  1. package com.gaoxing.hadoop;
    
    import java.io.IOException;
    import java.security.PrivilegedExceptionAction;
    import java.util.StringTokenizer;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.Mapper;
    import org.apache.hadoop.mapreduce.Reducer;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    import org.apache.hadoop.security.UserGroupInformation;
    import org.apache.hadoop.util.GenericOptionsParser;
    
    public class WordCount {
        //继承mapper接口,设置map的输入类型为<Object,Text>
        //输出类型为<Text,IntWritable>
        public static class Map extends Mapper<Object,Text,Text,IntWritable>{
            //one表示单词出现一次
            private static IntWritable one = new IntWritable(1);
            //word存储切下的单词
            private Text word = new Text();
            public void map(Object key,Text value,Context context) throws IOException,InterruptedException{
                //对输入的行切词
                StringTokenizer st = new StringTokenizer(value.toString());
                while(st.hasMoreTokens()){
                    word.set(st.nextToken());//切下的单词存入word
                    context.write(word, one);
                }
            }
        }
        //继承reducer接口,设置reduce的输入类型<Text,IntWritable>
        //输出类型为<Text,IntWritable>
        public static class Reduce extends Reducer<Text,IntWritable,Text,IntWritable>{
            //result记录单词的频数
            private static IntWritable result = new IntWritable();
            public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException,InterruptedException{
                int sum = 0;
                //对获取的<key,value-list>计算value的和
                for(IntWritable val:values){
                    sum += val.get();
                }
                //将频数设置到result
                result.set(sum);
                //收集结果
                context.write(key, result);
            }
        }
        /**
         * @param args
         */
        public static void main(String[] args) throws Exception{
            Configuration conf = new Configuration();
           // conf.set("mapred.remote.os","Linux");
           // conf.set("yarn.resourcemanager.address","master:8032");
           // conf.set("mapreduce.framework.name","yarn");
            conf.set("mapred.jar","D:\\IdeaProjects\\hadooplearn\\out\\artifacts\\hadoo.jar");
            //conf.set("mapreduce.app-submission.cross-platform","true");
            Job job = Job.getInstance(conf);
            job.setJobName("test");
            //配置作业各个类
            job.setJarByClass(WordCount.class);
            job.setMapperClass(Map.class);
            job.setCombinerClass(Reduce.class);
            job.setReducerClass(Reduce.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
            FileInputFormat.addInputPath(job, new Path("hdfs://master:9000/tmp/hbase-env.sh"));
            FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/tmp/out11"));
            System.exit(job.waitForCompletion(true) ? 0 : 1);
        }
    
    }


conf.set("mapred.jar","D:\\IdeaProjects\\hadooplearn\\out\\artifacts\\hadoo.jar");这是最重要的一句,不然会报上面第4个问题

IDEA中有个功能就是编译的时候打包:

下班了。

来自为知笔记(Wiz)

时间: 2024-12-14 18:55:14

在windows远程提交任务给Hadoop集群(Hadoop 2.6)的相关文章

docker搭建Hadoop集群

一个分布式系统基础架构,由Apache基金会所开发. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. 首先搭建Docker环境,Docker版本大于1.3.2 安装主机监控程序和加速器(curl -sSL https://get.daocloud.io/daomonit/install.sh | sh -s 7a029f60d36056fe1b85fabca6a133887245abe6) docker pull daocloud.io/library

深入理解Hadoop集群和网络

导读:云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和Cloudera的培训资料. 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hadoop集群运作的基础原理. Hadoop里的服务器角色 Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点.主节点主要负责Had

深入理解Hadoop集群和网络【转】

http://os.51cto.com/art/201211/364374.htm 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hadoop集群运作的基础原理. 云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和Cloudera的培训资料. 本文将着重于讨论Hadoop集群的体系结构和方法,及

Eclipse远程提交MapReduce任务到Hadoop集群

一.介绍 以前写完MapReduce任务以后总是打包上传到Hadoop集群,然后通过shell命令去启动任务,然后在各个节点上去查看Log日志文件,后来为了提高开发效率,需要找到通过Ecplise直接将MaprReduce任务直接提交到Hadoop集群中.该章节讲述用户如何从Eclipse的压缩包最终完成Eclipse提价任务给MapReduce集群. 二.详解 1.安装Eclipse,安装hadoop插件 (1)首先下载Eclipse的压缩包,然后可以从这里下载hadoop 2.7.1的ecp

Eclipse远程提交hadoop集群任务

文章概览: 1.前言 2.Eclipse查看远程hadoop集群文件 3.Eclipse提交远程hadoop集群任务 4.小结 1 前言 Hadoop高可用品台搭建完备后,参见<Hadoop高可用平台搭建>,下一步是在集群上跑任务,本文主要讲述Eclipse远程提交hadoop集群任务. 2 Eclipse查看远程hadoop集群文件 2.1 编译hadoop eclipse 插件 Hadoop集群文件查看可以通过webUI或hadoop Cmd,为了在Eclipse上方便增删改查集群文件,我

本地idea开发mapreduce程序提交到远程hadoop集群执行

https://www.codetd.com/article/664330 https://blog.csdn.net/dream_an/article/details/84342770 通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行mapreduce. 简要流程:本地开发mapreduce程序–>设置yarn 模式 --> 直接本地run–>远程集群执行mapreduce程序: 完整的流程:本地开发mapreduce程序--> 设置yarn模式

windows下在eclipse上远程连接hadoop集群调试mapreduce错误记录

第一次跑mapreduce,记录遇到的几个问题,hadoop集群是CDH版本的,但我windows本地的jar包是直接用hadoop2.6.0的版本,并没有特意找CDH版本的 1.Exception in thread "main" java.lang.NullPointerException atjava.lang.ProcessBuilder.start 下载Hadoop2以上版本时,在Hadoop2的bin目录下没有winutils.exe和hadoop.dll,网上找到对应版本

Windows平台开发Mapreduce程序远程调用运行在Hadoop集群—Yarn调度引擎异常

共享原因:虽然用一篇博文写问题感觉有点奢侈,但是搜索百度,相关文章太少了,苦苦探寻日志才找到解决方案. 遇到问题:在windows平台上开发的mapreduce程序,运行迟迟没有结果. Mapreduce程序 public class Test { public static void main(String [] args) throws Exception{ Configuration conf = new Configuration(); conf.set("fs.defaultFS&qu

Hadoop学习三十二:Win7下无法提交MapReduce Job到集群环境

一. 对hadoop eclipse plugin认识不足 http://zy19982004.iteye.com/blog/2024467曾经说到我最hadoop eclipse plugin作用的认识.但事实上我犯了一个错误,Win7 Eclipse里的MyWordCount程序一直在本地运行,没有提交到集群环境上运行(查看192.168.1.200:50030)没有这个Job.运行方式分为两种,右键Run As Java Application Run on Hadoop 如果说Run A