Java之美[从菜鸟到高手演练]之Linux下Hadoop的完全分布式安装

作者:二青

邮箱:[email protected]     微博:http://weibo.com/xtfggef

本来是想安装一个单节点的环境就好了,后来按装完了总觉得不够过瘾,于是今天继续研究一下,来一个完全分布式的集群安装。用到的软件和上一篇单节点安装Hadoop一样,如下:

  • Ubuntu 14.10 64 Bit Server Edition
  • Hadoop2.6.0
  • JDK 1.7.0_71
  • ssh
  • rsync

准备环境

依然是VirtualBox + Ubuntu 14.10 64 Bit,只不过这次是3个节点,话不多说,下面开始配置准备,基础环境就不再赘述了,包括安装JDK,ssh,rsync等,可以参考上一篇。

master 192.168.1.118 nameNode
slave1 192.168.1.189 dataNode1
slave2 192.168.1.116 dataNode2

修改每个机器的hostname,在/etc/hosts文件末尾添加如下配置:

192.168.1.118   master
192.168.1.189   slave1
192.168.1.116   slave2

配置namenode对datanode的无密钥访问

直接在namenode控制台执行如下两行命令:

$ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

进入namenode的用户根目录,再进入.ssh目录查看生成的文件:authorized_keys, id_dsa, id_dsa.pub

将authorized_keys文件分发到个datanode节点上:

验证:

ssh 192.168.1.189

ssh 192.168.1.116

ssh slave1

ssh slave2

如果不需要密码直接进入则OK,否则重新来配。

安装Hadoop

1. 从官网下载hadoop 2.6.0 tar.gz文件,然后解压到用户目录:tar -zxvf hadoop-2.6.0.tar.gz.

2. 在解压后的hadoop-2.6.0文件夹里创建tmp文件夹。

3. 配置环境变量

添加如下配置信息到/etc/profile文件末尾(每台机器都要配置)。

# set hadoop path
export HADOOP_HOME=/home/adam/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin

执行. /etc/profile或者source /etc/profile使配置生效,然后执行hadoop version查看hadoop版本并且验证环境变量是否配置成功。

4. 配置hadoop,进入目录/home/adam/hadoop-2.6.0/etc/hadoop

a>. 编辑core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/adam/hadoop-2.6.0/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>4096</value>
    </property>
</configuration>

b>. 在hadoop-env.sh和yarn-env.sh里配置JAVA_HOME环境变量如下

3. 编辑hdfs-site.xml

<configuration>
    <property>
    	<name>dfs.nameservices</name>
        <value>hadoop-cluster</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:50090</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/adam/hadoop-2.6.0/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/adam/hadoop-2.6.0/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

4. 编辑mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>master:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

5. 编辑yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

6. 编辑slaves文件添加如下两行:

slave1

slave2

7. 将hadoop文件夹复制到另个slave结点上

启动Hadoop

1. 格式化namenode

[email protected]:~/hadoop-2.6.0/bin$ ./hdfs namenode -format
15/01/14 19:29:58 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = ubuntu/60.191.124.254
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 2.6.0
STARTUP_MSG:   classpath = /home/adam/hadoop-2.6.0/etc/hadoop:/home/adam/hadoop-2.6.0/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar:/home/adam/hadoop-2.6.0/share/hadoop/common/lib/jsr305-1.3.9.jar:/home/adam/h ...
jar:/home/adam/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-client-app-2.6.0.jar:/home/adam/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:/home/adam/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-client-shuffle-2.6.0.jar:/home/adam/hadoop-2.6.0/contrib/capacity-scheduler/*.jar
STARTUP_MSG:   build = https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1; compiled by ‘jenkins‘ on 2014-11-13T21:10Z
STARTUP_MSG:   java = 1.7.0_71
************************************************************/
15/01/14 19:29:58 INFO namenode.NameNode: registered UNIX signal handlers for [TERM, HUP, INT]
15/01/14 19:29:58 INFO namenode.NameNode: createNameNode [-format]
Formatting using clusterid: CID-3f81e813-604e-4d60-93b1-9794d7c7c079
15/01/14 19:30:10 INFO namenode.FSNamesystem: No KeyProvider found.
15/01/14 19:30:10 INFO namenode.FSNamesystem: fsLock is fair:true
15/01/14 19:30:10 INFO blockmanagement.DatanodeManager: dfs.block.invalidate.limit=1000
15/01/14 19:30:10 INFO blockmanagement.DatanodeManager: dfs.namenode.datanode.registration.ip-hostname-check=true
15/01/14 19:30:10 INFO blockmanagement.BlockManager: dfs.namenode.startup.delay.block.deletion.sec is set to 000:00:00:00.000
15/01/14 19:30:10 INFO blockmanagement.BlockManager: The block deletion will start around 2015 Jan 14 19:30:10
15/01/14 19:30:10 INFO util.GSet: Computing capacity for map BlocksMap
15/01/14 19:30:10 INFO util.GSet: VM type       = 64-bit
15/01/14 19:30:10 INFO util.GSet: 2.0% max memory 966.7 MB = 19.3 MB
15/01/14 19:30:10 INFO util.GSet: capacity      = 2^21 = 2097152 entries
15/01/14 19:30:10 INFO blockmanagement.BlockManager: dfs.block.access.token.enable=false
15/01/14 19:30:10 INFO blockmanagement.BlockManager: defaultReplication         = 1
15/01/14 19:30:10 INFO blockmanagement.BlockManager: maxReplication             = 512
15/01/14 19:30:10 INFO blockmanagement.BlockManager: minReplication             = 1
15/01/14 19:30:10 INFO blockmanagement.BlockManager: maxReplicationStreams      = 2
15/01/14 19:30:10 INFO blockmanagement.BlockManager: shouldCheckForEnoughRacks  = false
15/01/14 19:30:10 INFO blockmanagement.BlockManager: replicationRecheckInterval = 3000
15/01/14 19:30:10 INFO blockmanagement.BlockManager: encryptDataTransfer        = false
15/01/14 19:30:10 INFO blockmanagement.BlockManager: maxNumBlocksToLog          = 1000
15/01/14 19:30:10 INFO namenode.FSNamesystem: fsOwner             = adam (auth:SIMPLE)
15/01/14 19:30:10 INFO namenode.FSNamesystem: supergroup          = supergroup
15/01/14 19:30:10 INFO namenode.FSNamesystem: isPermissionEnabled = true
15/01/14 19:30:10 INFO namenode.FSNamesystem: Determined nameservice ID: hadoop-cluster
15/01/14 19:30:10 INFO namenode.FSNamesystem: HA Enabled: false
15/01/14 19:30:10 INFO namenode.FSNamesystem: Append Enabled: true
15/01/14 19:30:16 INFO util.GSet: Computing capacity for map INodeMap
15/01/14 19:30:16 INFO util.GSet: VM type       = 64-bit
15/01/14 19:30:16 INFO util.GSet: 1.0% max memory 966.7 MB = 9.7 MB
15/01/14 19:30:16 INFO util.GSet: capacity      = 2^20 = 1048576 entries
15/01/14 19:30:16 INFO namenode.NameNode: Caching file names occuring more than 10 times
15/01/14 19:30:16 INFO util.GSet: Computing capacity for map cachedBlocks
15/01/14 19:30:16 INFO util.GSet: VM type       = 64-bit
15/01/14 19:30:16 INFO util.GSet: 0.25% max memory 966.7 MB = 2.4 MB
15/01/14 19:30:16 INFO util.GSet: capacity      = 2^18 = 262144 entries
15/01/14 19:30:16 INFO namenode.FSNamesystem: dfs.namenode.safemode.threshold-pct = 0.9990000128746033
15/01/14 19:30:16 INFO namenode.FSNamesystem: dfs.namenode.safemode.min.datanodes = 0
15/01/14 19:30:16 INFO namenode.FSNamesystem: dfs.namenode.safemode.extension     = 30000
15/01/14 19:30:16 INFO namenode.FSNamesystem: Retry cache on namenode is enabled
15/01/14 19:30:16 INFO namenode.FSNamesystem: Retry cache will use 0.03 of total heap and retry cache entry expiry time is 600000 millis
15/01/14 19:30:16 INFO util.GSet: Computing capacity for map NameNodeRetryCache
15/01/14 19:30:16 INFO util.GSet: VM type       = 64-bit
15/01/14 19:30:16 INFO util.GSet: 0.029999999329447746% max memory 966.7 MB = 297.0 KB
15/01/14 19:30:16 INFO util.GSet: capacity      = 2^15 = 32768 entries
15/01/14 19:30:16 INFO namenode.NNConf: ACLs enabled? false
15/01/14 19:30:16 INFO namenode.NNConf: XAttrs enabled? true
15/01/14 19:30:16 INFO namenode.NNConf: Maximum size of an xattr: 16384
15/01/14 19:30:16 INFO namenode.FSImage: Allocated new BlockPoolId: BP-1507698623-60.191.124.254-1421235016468
15/01/14 19:30:16 INFO common.Storage: Storage directory /home/adam/hadoop-2.6.0/dfs/name has been successfully formatted.
15/01/14 19:30:17 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
15/01/14 19:30:17 INFO util.ExitUtil: Exiting with status 0
15/01/14 19:30:17 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ubuntu/60.191.124.254
************************************************************/

2. 启动Hadoop

hadoop/sbin start-all.sh或者start-dfs.sh & start-yard.sh

3. 验证安装

这样一个完全的分布式hadoop集群就装好了,步骤也不多,有兴趣的同学可以试一试,有什么问题欢迎联系我:

微博:http://weibo.com/xtfggef

邮箱:[email protected]

时间: 2024-11-03 20:46:08

Java之美[从菜鸟到高手演练]之Linux下Hadoop的完全分布式安装的相关文章

Java之美[从菜鸟到高手演练]之Linux下shell脚本的使用(一)

作者:二青 个人站点:zhangerqing.cn    邮箱:[email protected]    微博:http://weibo.com/xtfggef Shell脚本就是将很多条命令结合起来写在一起,通过运算以及判断来实现很多功能的文本.为什么学习shell,首先一些常规的系统管理操作,并且需要自动化地执行,如果用shell脚本把这些操作集中在一起,只需要定期的执行这个shell脚本就可以了,其次,对于一些复杂的文本处理,比如日志分析等等,可能需求比较多,单条执行命令不是很方便,因此也

Java之美[从菜鸟到高手演练]之Linux下单节点安装Hadoop

作者:二青 邮箱:[email protected]     微博:http://weibo.com/xtfggef 现在开始要系统地学习下Hadoop了,虽然可能有点儿晚,但是还是想好好学习一下这门火爆的技术,让我们从安装环境开始.官方文档 本文使用的个软件及版本如下: Ubuntu 14.10 64 Bit Server Edition Hadoop2.6.0 JDK 1.7.0_71 ssh rsync 首先自己准备一个装有linux系统的机器,物理机虚拟机都可,推荐使用Oracle Vi

Java之美[从菜鸟到高手演练]之Arrays类及其方法分析

作者:二青 个人站点:zhangerqing.cn    邮箱:[email protected]    微博:http://weibo.com/xtfggef 本章主要介绍一下 java.util.Arrays类的重点方法,包括怎么使用及实现原理.这是一个算法类,主要是辅助数组类实现一些排序.搜索等功能,同时也支持数组到List的转换.本章系Java之美[从菜鸟到高手演练]系列之Arrays类及其方法分析,如果有任何问题,欢迎通过上面任何一种方式与我联系! 排序 本文使用JDK1.8.0_25

Java之美[从菜鸟到高手演练]之JDK动态代理的实现及原理

JDK动态代理的实现及原理 作者:二青 邮箱:[email protected]     微博:http://weibo.com/xtfggef 动态代理,听上去很高大上的技术,在Java里应用广泛,尤其是在Hibernate和Spring这两种框架里,在AOP,权限控制,事务管理等方面都有动态代理的实现.JDK本身有实现动态代理技术,但是略有限制,即被代理的类必须实现某个接口,否则无法使用JDK自带的动态代理,因此,如果不满足条件,就只能使用另一种更加灵活,功能更加强大的动态代理技术-- CG

Java之美[从菜鸟到高手演练]之atomic包的原理及分析

作者:二青 个人站点:zhangerqing.cn    邮箱:[email protected]    微博:http://weibo.com/xtfggef Atomic简介 Atomic包是java.util.concurrent下的另一个专门为线程安全设计的Java包,包含多个原子操作类.这个包里面提供了一组原子变量类.其基本的特性就是在多线程环境下,当有多个线程同时执行这些类的实例包含的方法时,具有排他性,即当某个线程进入方法,执行其中的指令时,不会被其他线程打断,而别的线程就像自旋锁

Java之美[从菜鸟到高手演练]之Hadoop常用命令

作者:二青 邮箱:[email protected]     微博:http://weibo.com/xtfggef 这篇文章主要是讲一下位于bin下的hadoop命令,我们可以直接输入hadoop无任何参数看一下: 用法就是:hadoop [---config confdir] COMMAND此处COMMAND就是下面列出来的那些,fs, version,jar 等等. 用户命令 fs 目前版本的hadoop已经摒弃了fs命令,取而代之的是hdfs dfs. Usage: hdfs dfs [

Java之美[从菜鸟到高手演变]之eclipse连接hadoop集群

作者:二青个人站点:zhangerqing.cn    邮箱:[email protected]    微博:http://weibo.com/xtfggef 准备工具: Ubuntu 14.10 desktop 64 bit eclipse 4.3 kepler jee version hadoop 2.6.0 hadoop eclipse plugin 2.6.0 起初我是打算用win7做实验,后来遇到一个null pointer的问题很奇怪,在网上找了很多资料都不起作用,有些问题很像,单用

Java之美[从菜鸟到高手演变]之JVM内存管理及垃圾回收

很多Java面试的时候,都会问到有关Java垃圾回收的问题,提到垃圾回收肯定要涉及到JVM内存管理机制,Java语言的执行效率一直被C.C++程序员所嘲笑,其实,事实就是这样,Java在执行效率方面确实很低,一方面,Java语言采用面向对象思想,这也决定了其必然是开发效率高,执行效率低.另一方面,Java语言对程序员做了一个美好的承诺:程序员无需去管理内存,因为JVM有垃圾回收(GC),会去自动进行垃圾回收. 其实不然: 1.垃圾回收并不会按照程序员的要求,随时进行GC. 2.垃圾回收并不会及时

Java之美[从菜鸟到高手演变]之设计模式

设计模式(Design Patterns) ——可复用面向对象软件的基础 设计模式(Design pattern)是一套被反复使用.多数人知晓的.经过分类编目的.代码设计经验的总结.使用设计模式是为了可重用代码.让代码更容易被他人理解.保证代码可靠性. 毫无疑问,设计模式于己于他人于系统都是多赢的,设计模式使代码编制真正工程化,设计模式是软件工程的基石,如同大厦的一块块砖石一样.项目中合理的运用设计模式可以完美的解决很多问题,每种模式在现在中都有相应的原理来与之对应,每一个模式描述了一个在我们周