myeclipse连接hadoop集群编程及问题解决

  原以为搭建一个本地编程测试hadoop程序的环境很简单,没想到还是做得焦头烂额,在此分享步骤和遇到的问题,希望大家顺利.

  一.要实现连接hadoop集群并能够编码的目的需要做如下准备:

  1.远程hadoop集群(我的master地址为192.168.85.2)

  2.本地myeclipse及myeclipse连接hadoop的插件

  3.本地hadoop(我用的是hadoop-2.7.2)

  先下载插件hadoop-eclipse-plugin,我用的是hadoop-eclipse-plugin-2.6.0.jar,下载之后放在"MyEclipse Professional 2014\dropins"目录下,重启myeclipse会在perspective和views发现一个map/reduce的选项

  

切换到hadoop试图,然后打开MapReduce Tools

  

  二.接下来新增hadoop服务,要开始配置连接,需要查看hadoop配置

  1.hadoop/etc/hadoop/mapred-site.xml配置,查看mapred.job.tracker里面的ip和port,用以配置Map/Reduce Master

  2.hadoop/etc/hadoop/core-site.xml配置,查看fs.default.name里面的ip和port,用以配置DFS Master

  3.用户名直接写hadoop操作用户即可

  

  到此配置就完成了,顺利的话可以看到:

  

  新建hadoop工程.

  File】->【New】->【Project...】->【Map/Reduce】->【Map/Reduce Project】->【Project name: WordCount】->【Configure Hadoop install directory...】->【Hadoop installation directory: D:\nlsoftware\hadoop\hadoop-2.7.2】->【Apply】->【OK】->【Next】->【Allow output folders for source folders】->【Finish】

  工程下建立三个类,分别是Mapper,Reduce,和main

  TestMapper

package bb;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;

public class TestMapper 

extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, Context context

             ) throws IOException, InterruptedException {

StringTokenizer itr = new StringTokenizer(value.toString());

while (itr.hasMoreTokens()) {

 word.set(itr.nextToken());

 context.write(word, one);

}

}

}

  TestReducer

package bb;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;

public class TestReducer 

extends Reducer<Text,IntWritable,Text,IntWritable> {

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values, 

                Context context

                ) throws IOException, InterruptedException {

int sum = 0;

for (IntWritable val : values) {

 sum += val.get();

}

result.set(sum);

context.write(key, result);

}

}

  WordCount

package bb;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args)
                .getRemainingArgs();

        if (otherArgs.length != 2) {

            System.err.println("Usage: wordcount <in> <out>");

            System.exit(2);

        }

        Job job = new Job(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TestMapper.class);

        job.setCombinerClass(TestReducer.class);

        job.setReducerClass(TestReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

  我在hdfs的input里面新建了两个tex文件,这时候可以用来测试,也可以用其他的文件测试.所以我的参数如图:

  

  hdfs://192.168.85.2:9000/input/* hdfs://192.168.85.2:9000/output6

  -Xms512m -Xmx1024m -XX:MaxPermSize=256m

  稍作解释,参入的两个参数,一个是输入文件,一个是输出结果文件.指定正确目录即可. output6文件夹的名字是我随便写的.会自动创建

  那么到了最后也是最关键的一步.我run as hadoop时遇到了

Server IPC version 9 cannot communicate with client version 4

  报错.这是提示版本不对,我一看.远程hadoop版本与jar包版本不同导致的.远程是2.7.2的.所以我把hadoop相关jar包改为该版本即可(2.*版本的应该都可以,没有的话相近的也可以用)

  然后错误换了一个

Exception in thread "main" ExitCodeException exitCode=-1073741515: 

  经过查阅资料发现这是因为window本地的hadoop没有winutils.exe导致的.原来本地hadoop的机理要去调用这个程序.我们先要去下载2.7的winutils.exe然后使得其运行没错才可以.

  下载之后发现需要hadoop.dll文件.晕.再次下载并放在c:\windows\System32目录下.

  然而我的winutils.exe还是无法启动,这个虽然是我的电脑问题.但是想来有些人还是会遇到(简单说一下).

  报错缺少msvcr120.dll.下载之后再去启动提示,"应用程序无法正常启动0xc000007b".

  这是内存错误引起的.下载DirectX_Repair修复directx终于解决了问题,最后成功启动了hadoop程序.

  有同学可能能够启动winutils.exe但还是不能正常跑应用程序,依然报错,可以尝试修改权限验证.

  修改hadoop/etc/hadoop/hdfs-site.xml

  添加内容

<property>
  <name>dfs.permissions</name>
    <value>false</value>
</property>

  取消权限验证.

时间: 2024-11-07 09:56:06

myeclipse连接hadoop集群编程及问题解决的相关文章

【hadoop】——window下连接hadoop集群基础超详细版

1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Eclipse软件:eclipse-jee-indigo-SR1-win32.zip | eclipse-jee-helios-SR2-win32

Java之美[从菜鸟到高手演变]之eclipse连接hadoop集群

作者:二青个人站点:zhangerqing.cn    邮箱:[email protected]    微博:http://weibo.com/xtfggef 准备工具: Ubuntu 14.10 desktop 64 bit eclipse 4.3 kepler jee version hadoop 2.6.0 hadoop eclipse plugin 2.6.0 起初我是打算用win7做实验,后来遇到一个null pointer的问题很奇怪,在网上找了很多资料都不起作用,有些问题很像,单用

windows下在eclipse上远程连接hadoop集群调试mapreduce错误记录

第一次跑mapreduce,记录遇到的几个问题,hadoop集群是CDH版本的,但我windows本地的jar包是直接用hadoop2.6.0的版本,并没有特意找CDH版本的 1.Exception in thread "main" java.lang.NullPointerException atjava.lang.ProcessBuilder.start 下载Hadoop2以上版本时,在Hadoop2的bin目录下没有winutils.exe和hadoop.dll,网上找到对应版本

Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据

一.把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件. http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000 2. 用下面的命令把解压缩后的weblogs_aggregate.txt文件放到HDFS的/user/grid/aggregate_mr/目录下. hadoop fs -put webl

Win7下MyEclipse远程连接到Mac/Linux中Hadoop集群

Win7下MyEclipse远程连接到Mac/Linux中Hadoop集群(也可访问该网页查看:http://tn.51cto.com/article/562 ) 所需软件:(1)下载Hadoop2.5.1到Win7系统下,并解压缩Hadoop2.5.1下载地址:Indexof/dist/hadoop/core/hadoop-2.5.1http://archive.apache.org/dist/hadoop/core/hadoop-2.5.1/ 说明:Win7中下载的是Hadoop2.5.1,

大数据学习初体验:Linux学习+Shell基础编程+hadoop集群部署

距离上次博客时间已经9天,简单记录下这几天的学习过程 2020-02-15 10:38:47 一.Linux学习 关于Linux命令,我在之前就已经学过一部分了,所以这段时间的linux学习更多的是去学习Linux系统的安装以及相关配置多一些,命令会一些比较常用的就够了,下面记录下安装配置Linux系统时的注意事项. 这里配置的虚拟机的内存为4g 使用的 CentOS-6.5-x86_64-minimal.iso 映射文件 在进入linux系统中时,需要将虚拟机的主机名修改成自己想要的名字,还要

win系统下的eclipse连接和使用linux上的hadoop集群

准备工作 先在win系统的hosts文件中加入下面内容 10.61.6.164master     //hadoop集群的master节点 一.首先在eclipse上安装hadoop插件 下载hadoop-eclipse-plugin-1.1.2.jar.将其复制到eclipse 安装文件夹下的plugins,再启动eclispe.这时在eclipse的File/New/other下会看到一下的内容,证明插件成功安装 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi

Ceph client无法连接至集群问题解决

1.问题描述 今天做iptables策略,重启集群中的一台机器后,输入ceph -s发现如下状况: [[email protected] ~]# ceph -s 2015-09-10 13:50:57.688516 7f6a6b8cc700 0 monclient(hunting): authenticate timed out after 300 2015-09-10 13:50:57.688553 7f6a6b8cc700 0 librados: client.admin authentic

Hadoop集群(第10期)_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编