CentOS 6+Hadoop 2.6.0分布式集群安装

1.角色分配


IP
Role Hostname

192.168.18.37

Master/NameNode/JobTracker

HDP1

192.168.18.35

Slave/DataNode/TaskTracker
HDP2

192.168.18.36

Slave/DataNode/TaskTracker

HDP3

2. 分别安装JDK

mkdir -p /usr/local/setup

#安装JDK

cd /usr/lib

tar -xvzf /usr/local/setup/jdk-7u75-linux-x64.tar.gz

#改名为jdk7,纯属个人偏好

mv jdk1.7.0_75 jdk7

#增加JAVA环境变量

vi /etc/profile

在profile文件末尾,增加如下行:

export JAVA_HOME=/usr/local/lib/jdk7

export CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH

export PATH=$PATH:$JAVA_HOME/bin

#修改jdk7的文件的相关权限

chown -R root:root jdk7

chmod -R 755 jdk7

#source修改后profile文件

source /etc/profile

#测试JAVA安装

java -version

java version "1.7.0_75"

Java(TM) SE Runtime Environment (build 1.7.0_75-b13)

Java HotSpot(TM) 64-Bit Server VM (build 24.75-b04, mixed mode)

3. 分别修改 /etc/sysconfig/network和/etc/hosts

/etc/hosts这个就是指定IP和主机名的对应关系,/etc/sysconfig/network这个是指定机器的主机名。

/etc/hosts修改:

127.0.0.1   localhost  localhost4 localhost4.localdomain4

192.168.18.37 HDP1

192.168.18.35 HDP2

192.168.18.36 HDP3

/etc/sysconfig/network修改:

HOSTNAME=本机的机器名

4. 配置HDP1无密码SSH访问HDP2和HDP3

  4.1 配置HDP1本地无密码SSH

#HDP1切到hdp用户配置key。

ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

#修改sshd_config

sudo vi /etc/ssh/sshd_config

#删除#号,使如下三行的配置生效

RSAAuthentication yes

PubkeyAuthentication yes

AuthorizedKeysFile      .ssh/authorized_keys

#配置权限并重启sshd服务

cd ~/.ssh

chmod 600 authorized_keys

cd ..

chmod -R 700 .ssh

sudo service sshd restart

  4.2 配置HDP1到HDP2和HDP3的无密码SSH

#将HDP1的authorized_keys复制到HDP2和HDP3

scp .ssh/authorized_keys hdp2:~/.ssh/authorized_keys_hdp1

scp .ssh/authorized_keys hdp3:~/.ssh/authorized_keys_hdp1

#分别在HDP2和HDP3上将authorized_keys_hdp1加入到本地的authorized_keys中

cat ~/.ssh/authorized_keys_hdp1 >> ~/.ssh/authorized_keys

#测试ssh localhost

ssh hdp2

ssh hdp3

Last login: Thu Apr  2 15:22:03 2015 from hdp1

5. 配置三台机的Hadoop文件

首先在Master(HDP1)配置,配置完成后将配置文件复制到Slaves上覆盖。如果有相关的目录,也需要在Slaves创建之。也可以在配置完成后,将整个hadoop安装目录复制到Slaves,并做为安装目录。

在Hadoop安装目录新增如下文件夹:

mkdir dfs dfs/name dfs/data tmp

dfs:用于hdfs的目录

dfs/name:hdfs的NameNode目录

dfs/data:hdfs的DataNode目录

tmp:hdfs的临时文件的目录

/etc/profile

export HADOOP_PREFIX=/usr/local/hadoop

Hadoop安装目录的环境变量

etc/hadoop/hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}

export HADOOP_PREFIX=/usr/local/hadoop

export HADOOP_LOG_DIR=/var/log/hadoop

Hadoop deamon的独立环境变量

etc/hadoop/yarn-env.sh

export JAVA_HOME=${JAVA_HOME}

yarn的独立环境变量

etc/hadoop/slaves,添加Slave机器名

HDP2

HDP3

etc/hadoop/core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://hdp1:9000</value>

</property>

<property>

<name>io.file.buffer.size</name>

<value>4096</value>

</property>

</configuration>

etc/hadoop/hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>HDP1:9001</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/dfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.nameservices</name>

<value>hadoop-cluster1</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

etc/hadoop/mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapreduce.jobhistory.address</name>

<value>HDP1:10020</value>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>HDP1:19888</value>

</property>

</configuration>

etc/hadoop/yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>HDP1:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>HDP1:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>HDP1:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>HDP1:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>HDP1:8088</value>

</property>

</configuration>

#将配置好的配置文件复制到Slaves

我选择复制所有配置文件。先复制到对应的Home目录,然后再覆盖到Hadoop安装目录,防止权限改变。

sudo scp -r /usr/local/hadoop/etc/hadoop [email protected]:~/

sudo scp -r /usr/local/hadoop/etc/hadoop [email protected]:~/

#SSH到对应的Slave,然后覆盖etc/hadoop。

我使用先删除后覆盖的方式。

rm -rf /usr/local/hadoop/etc/hadoop/*

mv ~/hadoop/* /usr/local/hadoop/etc/hadoop/

6. 添加Hadoop环境变量

方便调用hadoop/bin和hadoop/sbin中的命令和脚本,不用每次都输入绝对路径。

vi /etc/profile

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

重新source之

source /etc/profile

7.启动验证

#格式化NameNode

hdfs namenode -format

#启动hdfs

start-hdfs.sh

启动后HDP1上会有NameNode和SecondaryNameNode进程:

[[email protected] root]$ jps

2991 NameNode

3172 SecondaryNameNode

8730 Jps

Slaves上会有DataNode进程:

[[email protected] root]$ jps

2131 DataNode

4651 Jps

#启动yarn

start-yarn.sh

启动后,HDP1上会增加ResourceManager进程,Slaves上会增加NodeManager进程。同样可以用JPS观察。

8. 运行自带的WordCount示例

 

#创建一个要分析的txt

vi /usr/local/hadoop/wc.txt

this is a wordcount app

is a wordcount app

a wordcount app

wordcount app

app

#在hdfs创建相关目录并上传wc.txt

hdfs dfs -mkdir -p /wc/input

hdfs dfs -put wc.txt /wc/input/

#运行之

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /wc/input/wc.txt /wc/output

#查看结果

hdfs dfs -ls /wc/output

hdfs dfs -cat /wc/output/part-r-00000

时间: 2024-10-14 12:25:29

CentOS 6+Hadoop 2.6.0分布式集群安装的相关文章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言 在生产环境上安装Hadoop高可用集群一直是一个须要极度耐心和体力的仔细工作. 虽然有非常多文档教会大家怎么一步一步去完毕这样的工作,可是百密也有一疏. 现成的工具不是没有,可是对于我这个喜欢了解细节的人来说,用别人的东西,写的好还能够,写的不好,出了问题,查找错误难之又难.手工安装Hadoop集群须要对Linux有一定的使用经验.对于全然没有接触Linux的人来说.肯定是

Hadoop2.2.0分布式集群安装

转载请注明出处:http://blog.csdn.net/l1028386804/article/details/45748111 一.安装系统 虚拟软件 :  VMware workstation 10 系统:       Centos 6.4 32bit Master IP :  192.168.56.131 Slave IP  :  192.168.56.132 User & pass:  hadoop 注:一台充当master(namenode),一台充当slave(datanode).

Spark2.1.0分布式集群安装

一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs.com/liugh/p/6624872.html 1.3 Scala 参见博文:http://www.cnblogs.com/liugh/p/6624491.html 二.文件准备 2.1 文件名称 spark-2.1.0-bin-hadoop2.7.tgz 2.2 下载地址 http://spa

Hadoop 2.7.3 分布式集群安装

1. 集群规划:192.167.1.252 palo252 Namenode+Datanode192.167.1.253 palo253 YarnManager+Datanode+SecondaryNameNode192.167.1.254 palo254 Datanode 2. 设定固定IP地址vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=EthernetBOOTPROTO=staticDEFROUTE=yesNAME=eth0UUID=7

Kafka0.10.2.0分布式集群安装

一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Scala 参见博文:http://www.cnblogs.com/liugh/p/6624491.html 1.3 Zookeeper 参见博文:http://www.cnblogs.com/liugh/p/6671460.html 二.文件准备 2.1 文件名称 kafka_2.11-0.10.2.0.tgz 2.2 下载地址 http://kafka.

hadoop3.0.0 分布式集群安装过程

1. 环境 主机名 ip 角色 hdp01 192.168.184.61 ResourceManager/NameNode/SecondaryNameNode hdp02 192.168.184.62 NodeManager/DataNode hdp03 192.168.184.63 NodeManager/DataNode (1个namenode 2个datanode) 2.准备工作 windows10(物理机系统) VMware12 workstation(虚拟机软件) centos7.0(

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事. 现将前期手里面的一个项目做一个大致的总结,与大家一起分享.交流.进步.项目现在正在线上运行,项目名--基于Hadoop的数据分析综合管理平台. 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-->热点话题发现-->报表"实时"展示,使用到的技术也是当今互联网公司常用的技术:Hadoop.Mahout.HBase.Spring Data Had

实战1 伪分布式Hadoop单节点实例 CDH4集群安装 Hadoop

Hadoop由两部分组成 分布式文件系统HDFS 分布式计算框架MapReduce 其中分布式文件系统(HDFS)主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对于存储在分布式文件系统中的数据进行分布式计算. 详细的介绍个节点的作用 NameNode: 1.整个Hadoop集群中只有一个NameNode.它是整个系统的中枢,它负责管理HDFS的目录树和相关文件 元数据信息.这些信息是以"fsimage (HDFS元数据镜像文件)和Editlog(HDFS文件改动

redis3.0.2 分布式集群安装详细步骤

redis3.0.2 分布式集群安装详细步骤 --(centos5.8 X64系统) 版本历史 时间 版本 说明 编写者 2015-06-5 1.0 redis3.0.2 分布式集群安装详细步骤 csc 一: redis cluster介绍篇 1:redis cluster的现状 目前redis支持的cluster特性(已亲测): 1):节点自动发现 2):slave->master 选举,集群容错 3):Hot resharding:在线分片 4):进群管理:cluster xxx 5):基于