hadoop开发环境搭建

很早就听说hadoop,但项目中一直没怎么接触,今天终于下定决心,花了一天的时间,搭起了基本的开发环境,总结如下。

一.软件准备

jdk、hadoop软件包、eclipse软件包(linux版)

二.安装java

详见http://blog.csdn.net/tonytfjing/article/details/42167599

三.安装hadoop(单机伪分布式)

3.1创建hadoop用户

为hadoop创建一个专门的用户,具体如下:

groupadd hadoopGroup             //创建hadoop用户组
useradd -g hadoopGroup hadoop    //新增用户hadoop并将其加入hadoopGroup群组
passwd hadoop                    //建立hadoop用户的新密码,密码也是hadoop

3.2安装hadoop

用ftp工具将hadoop安装包上传到linux系统中,解压

tar -zxvf hadoop-1.2.1.tar.gz

3.3配置ssh

Hadoop需要通过SSH(安全外壳协议,可以保护共享访问的安全性)来启动Slave列表中各台主机的守护进程。但是由于SSH需要用户密码登陆,所以为了在系统运行时,节点之间免密码登录和访问,就需要把SSH配置免密码方式。具体如下:

ssh-keygen -t rsa        //生成密钥对,ras加密

一直按enter,就会按照默认的选项将生成的密钥对保存到.ssh/id_rsa

cd .ssh/
cp id_rsa.pub authorized_keys    //进入.ssh,把id_rsa.pub文件追加到授权(authorized_keys)里面
ssh localhost                    //测试无密码登录本机

3.4配置hadoop环境

切换到hadoop的安装路径找到conf/hadoop-env.sh文件,vi编辑,在文件最后添加如下语句:

export JAVA_HOME=/usr/java/jdk1.7.0_71

同时将hadoop安装目录的bin目录配置到系统path变量中,不然如果无法使用hadoop命令(当然也可以每次都到hadoop安装文件夹下的bin里面去执行./hadoop)

vi /etc/profile
export HADOOP_HOME=/hadoop1.2.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

Hadoop-1.2.1的配置文件主要有三个,从名字上很容易辨认和理解:conf/core-site.xml(全局配置文件)、conf/hdfs-site.xml(HDFS配置文件)和conf/mapred-site.xml(MapReduce的配置文件)。下面是我的配置,name都是固定的,也很容易理解。value注意根据自己的路径来配

conf/core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop1.2.1/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.5.227:9000</value>    <!-- 最好写成这样,因为后面编程时会用到这个地址 -->
</property>
</configuration>

conf/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.5.227:9001</value>
</property>

<property>
<name>mapred.cluster.local.dir</name>
<value>/hadoop1.2.1/mapred/local</value>
</property>

<property>
<name>mapred.jobtracker.system.dir</name>
<value>/hadoop1.2.1/mapred/system</value>
</property>

</configuration>

hdfs-site.xml  

 <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hadoop1.2.1/dfs/name</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/hadoop1.2.1/dfs/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

3.5格式化HDFS文件系统

修改完上述文件之后,进入hadoop安装目录

cd /hadoop1.2.1

在首次安装和使用Hadoop之前,需要格式化分布式文件系统HDFS,所以执行如下命令:

bin/hadoop namenode -format

3.6启动hadoop环境

启动守护进程

bin/start-all.sh

成功后,至少将在本机上启动5个新进程:NameNode、DataNode、JobTracke、TaskTracker、SecondaryNameNode

查看hadoop启动情况

jps
8165 Jps
27621 NameNode
2982 oc4j.jar
28001 JobTracker
2454 Bootstrap
28142 TaskTracker
27764 DataNode
27907 SecondaryNameNode

如果现实类似于上述的信息,则表示Hadoop已经正常启动了,恭喜你!既然Hadoop安装好了,那就该用用了。

四、Hadoop下eclipse开发环境准备

4.1安装eclipse,并编译插件

cp eclipse-SDK-3.4-linux-gtk.tar.gz /opt                    //将eclipse-SDK-3.4-linux-gtk.tar.gz安装包复制到/opt目录
cd /opt                                                     //切换到/opt目录
tar -zxvf eclipse-java-luna-SR1-linux-gtk.tar.gz            //解压eclipse-SDK-3.4-linux-gtk.tar.gz数据包

eclipse插件编译及使用详见 http://f.dataguru.cn/thread-288619-1-1.html

4.2配置Map/Reduce Locations

重启eclipse,配置hadoop installation directory,如图

如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里配置Hadoop installation directory。进入Map/Reduce视角,如下图,

新建location

配置如下,

这里面的Host、Port分别是我前面在core-site.xml、mapred-site.xml中配置的地址及端口。配置完后退出。一层层打开DFS Locations,如果能显示文件夹(1)说明配置正确,如果显示"拒绝连接",请检查配置。

4.3第一个Map/Reduce Project

新建一个Map/Reduce Project项目,将example里的WordCount.java复制到新建的项目下面。先编写个数据输入文件,如下:

通过hadoop的命令在HDFS上创建/tmp/workcount目录,命令如下:

hadoop fs -mkdir /tmp/wordcount

通过copyFromLocal命令把新建的word.txt复制到HDFS上,命令如下:

hadoop fs -copyFromLocal /word.txt  /tmp/wordcount/word.txt

这个时候我们回到eclipse里面,在Map/Reduce Locations上reconnect看看,发现多出来了文件,如下所示,

4.4运行第一个Map/Reduce Project

在WordCount.java,右键-->Run As-->Run Configurations ,配置如下,

两个配置参数很容易理解,就是输入文件和输出文件。点击Run,运行程序,等运行结束后,查看运行结果,同样在Map/Reduce Locations上reconnect看看(也可以用命令hadoop fs -ls /tmp/wordcount/out)会发现又多出一个文件夹,下面含有两个文件。

使用命令查看part-r-00000文件,hadoop fs -cat /tmp/wordcount/out/part-r-00000可以查看运行结果。

好了,现在搭建好了基本的开发环境了,小伙伴们可以去折腾了!

时间: 2024-10-05 04:49:51

hadoop开发环境搭建的相关文章

Hadoop开发环境搭建 windows下Eclipse

Hadoop开发环境搭建 windows下Eclipse 下载Eclipse www.eclipse.org 解压. 下载Hadoop的Eclipse Plugin 将插件包放到eclipse的plugins目录下.重启eclipse. 下载hadoop的安装包 将下载的hadoop安装包,解压到任一目录,最好是英文且无空格目录. 配置eclipse Hadoop instllation directory:设置为hadoop安装包解压的目录. Window->open persperctive

Hadoop开发环境搭建(linux)

Hadoop开发环境搭建(linux) 零.安装xwindows apt-get install ubuntu-desktop 一.安装Eclipse 下载Eclipse,解压安装,例如安装到/usr/local,即/usr/local/eclipse 二.在eclipse上安装hadoop插件 1.下载hadoop插件 下载地址:http://pan.baidu.com/s/1mgiHFok 此zip文件包含了源码,我们使用使用编译好的jar即可,解压后,release文件夹中的hadoop.

hadoop开发环境搭建(1)

作为初学Hadoop的新手,搭建Hadoop开发环境花了我很大功夫.倒不是hadoop搭建复杂,由于hadoop本身是一个分布式.多jvm进程的运行环境,我们想达到能用eclipse进行代码跟踪调试目的,还真不是一般的费劲. 一边在网上向给位前辈学习,一边自己动手尝试,花了我整整一天的时间终于完成了,为了使自己好不太容易完成的成就,后续被轻易忘记,也为了帮助其他hadoop小白同类脱贫致富,花了一晚上总结了此篇博文,以兹鼓励. 一.准备篇 言归正传,首先是准备篇.这里我们需要准备不少东东: 1.

hadoop 开发环境搭建

一,安装java环境 添加java环境变量 vi /etc/profile # add by tank export JAVA_HOME=/data/soft/jdk/jdk1.7.0_71 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin 二,修改文件句柄数

Hadoop开发环境搭建(不定时更新)

参考链接 hadoop家族.strom.spark.Linux.flume等jar包.安装包汇总下载(持续更新) http://www.aboutyun.com/thread-8178-1-1.html Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4经验总结 http://www.aboutyun.com/thread-7784-1-1.html

Hadoop那些事儿(二)---MapReduce开发环境搭建

上一篇文章介绍了在ubuntu系统中安装Hadoop的伪分布式环境,这篇文章主要为MapReduce开发环境的搭建流程. 1.HDFS伪分布式配置 使用MapReduce时,如果需要与HDFS建立连接,及使用HDFS中的文件,还需要做一些配置. 首先进入Hadoop的安装目录 cd /usr/local/hadoop/hadoop2 在HDFS中创建用户目录 ./bin/hdfs dfs -mkdir -p /user/hadoop 创建input目录,并将./etc/hadoop中的xml文件

搭建基于MyEclipse的Hadoop开发环境

前面我们已经搭建了一个伪分布模式的Hadoop运行环境. 我们绝大多数都习惯在Eclipse或MyEclipse中做Java开发,本次随笔我就教大家如何搭建一个基于MyEclipse IDE的Hadoop开发环境. 闲话少说,走起! 第一步 安装MyEclipse的Hadoop插件 1 打开MyEclipse,查看是否已经安装过 window  ->  preferences 没有显示Hadoop Map/Reduce,所以说明是MyEclipse是没有安装过Eclipse的插件. 首先,确认你

(转)Hadoop Eclipse开发环境搭建

来源:http://www.cnblogs.com/justinzhang/p/4261851.html This document is from my evernote, when I was still at baidu, I have a complete hadoop development/Debug environment. But at that time, I was tired of writing blogs. It costs me two day’s spare tim

windows 7使用eclipse下hadoop应用开发环境搭建

因为一些缘故,这节内容到现在才写,其实弄hadoop有一段时间了,可以编写一些小程序了,今天来还是来说说环境的搭建.... 说明一下:这篇文章的步骤是接上一篇的hadoop文章的:http://blog.csdn.net/enson16855/article/details/37725771 ,如果不是按照上篇的方式安装hadoop,可能会有些错误~百度一下就能解决的哈~ 准备环境: 不用多说了,我用eclipse版本是最新JavaEE版本,叫什么LUA Kepler,本来是用Juno的,因为操