Hadoop 单机与完全分布式配置

Hadoop 单机模式安装配置

? Hadoop 的单机模式安装非常简单,只需要配置好环境变量即可运行,这个模式一般用来学习和测试hadoop 的功能。

1、获取软件

http://hadoop.apache.org/

tar  -xf   hadoop-2.7.6.tar.gz   -C  ./

2、安装配置 java 环境,安装 jps 工具

yum -y install java-1.8.0-openjdk-devel java-1.8.0-openjdk

3、设置环境变量,启劢运行

vim  etc/hadoop/hadoop-env.sh

export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"

查看版本

cd  /usr/local/hadoop
./bin/hadoop version

测试  《 分析/etc/passwd 里面 的数据 把结果保存到 /passwd 里面 》

cd  /usr/local/hadoop/./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar    wordcount  /etc/passwd   /passwd

搭建完全分布式

HDFS 分布式文件系统
完全分布式

? 系统规划

=======================================================
主机                                                 角色                      软件
10.211.55.10                                 NameNode                HDFS
Nn01                                       SecondaryNameNode
=======================================================
10.211.55.11                                DataNode                   HDFS
Node1
=======================================================
10.211.55.12                                DataNode                   HDFS
Node2
=======================================================
10.211.55.13                                DataNode                   HDFS
node3
=======================================================

Hadoop 配置文件及格式
? 文件格式
– Hadoop-env.sh
JAVA_HOME
HADOOP_CONF_DIR
– Xml 文件配置格式
<property>
       <name>关键字</name>
       <value>变量值</value>
       <description> 描述 </description>
</property>

– 禁用 selinux
SELINUX=disabled

– 禁用 firewalld
systemctl stop firewalld
systemctl mask firewalld

– 安装 java-1.8.0-openjdk-devel
yum install -y java-1.8.0-openjdk-devel

? 基础环境准备
– 在3台机器上配置 /etc/hosts
– 注: 所有主机都能 ping 同 namenode 的主机名
– namenode 能 ping 同所有节点
– java -version 验证 java 安装
– jps 验证角色

? 配置 SSH 信任关系(namenode)
– 注意:不能出现要求输入 yes 的情况,每台机器都要能登录成功,包括本机!!!
– ssh_config
StrictHostKeyChecking no
– ssh-keygen -b 2048 -t rsa -N  ‘‘  -f key
– ssh-copy-id  -i  ./key.pub  [email protected]

? HDFS 完全分布式系统配置
– 环境配置文件 hadoop-env.sh
– 核心配置文件 core-site.xml
– HDFS配置文件 hdfs-site.xml
– 节点配置文件 slaves

完全分布式
? 环境配置文件 hadoop-env.sh
– openjdk 的安装目录
– JAVA_HOME
– hadoop 配置文件的存放目录
– HADOOP_CONF_DIR

完全分布式
? 核心配置文件 core-site.xml
– fs.defaultFS 文件系统配置参数
– hadoop.tmp.dir 数据目录配置参数

vim   /usr/local/hadoop/etc/core-site.xml
<configuration>
    <property>
     <name>fs.defaultFS</name>
     <value>hdfs://nn01:9000</value>
   </property>
   <property>
     <name>hadoop.tmp.dir</name>
     <value>/var/hadoop</value>
   </property>
</configuration>

  

完全分布式
? HDFS 配置文件 hdfs-site.xml
– namenode 地址声明
– dfs.namenode.http-address
– secondarynamenode 地址声明
– dfs.namenode.secondary.http-address
– 文件冗余仹数
– dfs.replication

? HDFS 配置文件 hdfs-site.xml

vim   /usr/local/hadoop/etc/hdfs-site.xml
<configuration>
   <property>
      <name>dfs.namenode.http-address</name>
      <value>nn01:50070</value>
   </property>
   <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>nn01:50090</value>
   </property>
   <property>
      <name>dfs.replication</name>
      <value>2</value>
   </property>
</configuration>

  

? 节点配置文件 slaves
– 只写 datanode 节点的主机名称
node1
node2
node3
– 同步配置
– hadoop 所有节点的配置参数完全一样,我们在一台配置好以后,要把配置文件分发到其它所有主机上去

for i in {11..13} ;do scp -r /usr/local/hadoop/etc/hadoop/* 192.168.1.$i:/usr/local/hadoop/etc/hadoop/ ; done

  

NN01: 格式化 namenode

cd    /usr/local/hadoop
./bin/hdfs namenode -format

  

NN01: 启动集群

 ./sbin/start-dfs.sh

停止集群可以使用

 ./sbin/stop-dfs.sh

ALL: 验证角色 jps

NN01: 验证集群是否组建成功

./bin/hdfs dfsadmin -report

  

服务启动日志路径

/usr/local/hadoop/logs

配置秘书管理   SecondaryNameNode

   秘书配置文件不存在,需要把源文件拷贝一个新的配置文件

 cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

  

mapred-site.xml 配置

vim  /usr/local/hadoop/etc/mapred-site.xml

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>   </property>
</configuration>

yarn-site.xml 配置

vim  /usr/local/hadoop/etc/yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>nn01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

ALL: 同步配置到主机

for i in {11..13} ;do scp /usr/local/hadoop/etc/hadoop/* 192.168.1.$i:/usr/local/hadoop/etc/hadoop/ ;done

NN1: 启动服务 

cd  /usr/local/hadoop/./sbin/start-yarn.sh

  

ALL: 验证角色 :   jps

NN1: 验证节点状态

cd  /usr/local/hadoop/
 ./bin/yarn node -list

  

测试集群结果

namenode web             地址 http://10.211.55.10:50070
sedondary namenode web   地址 http://10.211.55.10:50090
yarn resourcemanager     管理地址 http://10.211.55.10:8088
datanode web             地址 http://10.211.55.11:50075
nodemanager web          地址 http://10.211.55.11:8042

  

增加修复节点
按照单机方法安装一台机器,部署运行的 java 环境
拷贝 namenode 的文件到本机
启动 datanode

./sbin/hadoop-daemons.sh start datanode

设置同步带宽

./bin/hdfs dfsadmin -setBalancerBandwidth 60000000
./sbin/start-balancer.sh

  

删除节点
在主节点操作添加
]# vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<property>
     <name>dfs.hosts.exclude</name>
     <value>/usr/local/hadoop/etc/hadoop/exclude</value>
</property>

增加 exclude 配置文件,写入要删除的节点 主机名

touch    /usr/local/hadoop/etc/hadoop/exclude

  

开始导出数据

cd  /usr/loca/hadoop/./bin/hdfs dfsadmin -refreshNodes

  

查看状态
Normal 正常状态
Decommissioned in Program 数据正在迁移
Decommissioned 数据迁移完成

yarn 增加 nodemanager

./sbin/yarn-daemon.sh start nodemanager

yarn 停止 nodemanager

./sbin/yarn-daemon.sh stop nodemanager

  

yarn 查看节点状态

./bin/yarn node -list

  

NFS 网关

1 、新添加一台服务器     写入所有集群节点的  /etc/hosts 文件中

10.211.55.14      nfsgw

2、(nfsgw, nn01)在这两台服务器添加用户

groupadd -g 500 nsd1804
useradd -u 500 -g   500 nsd1804

  

3、NN01:  停止集群

cd  /usr/local/hadoop/./sbin/stop-all.sh

4、NN01:  增加配置 core-site.xml

vim  /usr/local/hadoop/etc/core-site.xml
<property>
     <name>hadoop.proxyuser.nsd1804.groups</name>
     <value>*</value>
</property>
<property>
     <name>hadoop.proxyuser.nsd1804.hosts</name>
     <value>*</value>
</property>

5、NN01:  同步配置 core-site.xml 到  

node1 node2 node3

6、NN01:  启动集群

./sbin/start-dfs.sh

  

7、NN01:  查看状态

./bin/hdfs dfsadmin -report

  

在新服务器配置 nfsge 上

安装 java-1.8.0-openjdk-devel

同步 nn01 的 /usr/local/hadoop 到 nfsge 的相同目录下
 hdfs-site.xml 增加配置

vim  /usr/local/hadoop/etc/hdfs-site.xml
<property>
       <name>nfs.exports.allowed.hosts</name>
       <value>* rw</value>
</property>
<property>
       <name>nfs.dump.dir</name>
       <value>/var/nfstmp</value>
</property>

  

nfsge :服务器上

创建转储目录,并给用户 nsd1804 赋权

mkdir /var/nfstmp
chown nsd1804:nsd1804 /var/nfstmp

  

nfsge服务器: 给 /usr/local/hadoop/logs 赋权

setfacl -m u:nsd1804:rwx  /usr/local/hadoop/logs

创建数据根目录 /var/hadoop

mkdir /var/hadoop

  

必须用 root 启动,必须先启动 !!!

cd  /usr/local/hadoop/./sbin/hadoop-daemon.sh --script ./bin/hdfs start portmap

  

必须用代理用户启动,必须后启动 !!!

在nfsge服务器上 登录代理服务器   nsd1804

su  -  nsd1804cd   /usr/local/hadoop/./sbin/hadoop-daemon.sh --script ./bin/hdfs start nfs3

  

Client: 安装 nfs-utils
mount 共享目录

mount -t nfs -o vers=3,proto=tcp,nolock,noatime,sync,noacl 10.211.55.14:/  /mnt/

  

查看注册服务

rpcinfo -p 192.168.1.15

  

查看共享目录

showmount -e 192.168.1.15

  

end  !!!!!!!!!

原文地址:https://www.cnblogs.com/zzc-log/p/9594987.html

时间: 2024-10-04 05:57:23

Hadoop 单机与完全分布式配置的相关文章

3-3 Hadoop集群完全分布式配置部署

Hadoop集群完全分布式配置部署 下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台 手动指定3服务器台以下信息: hostname IP mask gateway DNS 备注 master 172.17.138.82 255.255.255.0 172.17.138.1 202.203.85.88 服务器1 slave1 172.17.138.83 255.255.255.0 172.

[Nutch]Hadoop单机伪分布模式的配置

在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备. 1. 下载hadoop 在workspace目录使用如下命令下载hadoop 1.2.1: wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 下载之后进行解压: tar -zxvf hadoop-1.2.1

Hadoop单机、伪分布式、分布式集群搭建

JDK安装 设置hostname [[email protected] ~]# vi /etc/hostname 设置机器hosts [[email protected] ~]# vi /etc/hosts 192.168.1.111 bigdata111 192.168.1.112 bigdata112 192.168.1.113 bigdata113 创建jdk目录 [[email protected] /]# cd /opt [[email protected] opt]# ll 总用量

转载:Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

原文 http://www.powerxing.com/install-hadoop/ 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住.加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

参见:http://www.powerxing.com/install-hadoop/ 完全拷贝至上面网址 环境 本教程使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04 也行,32位.64位均可),请自行安装系统. 如果用的是 RedHat/CentOS 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置. 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,

Hadoop:Hadoop单机伪分布式的安装和配置

http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在docker中配置的hadoop单机伪分布式[Hadoop:Hadoop单机伪分布式的安装和配置 ],并且在docker只有root用户,所有没有权限问题存在. 这里直接在linux下配置,主要是为了能用netbeans ide调试hadoop程序,并且使用的用户就是开机时登录的用户pika. 本教程配置

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+Ubuntu14.04(半原创)

系统: Ubuntu 14.04 64bit Hadoop版本: Hadoop 2.5.2 (stable) JDK版本: JDK 1.6 虚拟机及Ubuntu安装 1. 下载并安装 VMware workstation 11 下载地址:https://my.vmware.com/web/vmware/info/slug/desktop_end_user_computing/vmware_workstation/11_0?wd=%20VMware%20workstation%2011%20&is

Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0

Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0 环境 本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统.如果用的是 Ubuntu 系统,请查看相应的 Ubuntu安装Hadoop教程. 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,例如 Hadoop 2.7.1, Hadoop 2.4.1等. Hadoop版本 Hadoop 有两个主要版本,

Hadoop单机模式的配置与安装

Hadoop单机模式的配置与安装 版权所有 前言: 由于Hadoop属于java程序,所以,安装Hadoop之前需要先安装jdk. 对于hadoop0.20.2的单机模式安装就需要在一个节点(一台主机)上运行5个节点. 分别是: JobTracker:负责Hadoop的Job任务分发和管理. TaskTracker:负责在单个节点上执行MapReduce任务. 对于Hadoop里面的HDFS的节点又有 NameNode:主节点,负责管理文件存储的名称节点 DateNode:数据节点,负责具体的文