四 hadoop集群部署

1、准备环境

centos 7.4

hadoop hadoop-3.2.1 (http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

jdk 1.8.x

2、配置环境变量

命令:vi /etc/profile

#hadoop

#hadoop
export HADOOP_HOME=/opt/module/hadoop-3.2.1
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

命令::wq

命令:source /etc/profile (执行此命令刷新配置文件)

3、新建目录

(分别执行)

mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data

4、修改配置  etc/hadoop

(1)、修改 core-site.xml

在<configuration>节点内加入配置:

<property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
   </property>
   <property>
        <name>fs.default.name</name>
        <value>hdfs://node180:9000</value>
   </property>

(2)、修改 hdfs-site.xml

在<configuration>节点内加入配置:

<property>
<!-- 主节点地址 -->
<name>dfs.namenode.http-address</name>
<value>node180:50070</value>
</property>
<property>
   <name>dfs.name.dir</name>
   <value>/root/hadoop/dfs/name</value>
   <description>Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.
</description>
</property>

<property>
   <name>dfs.data.dir</name>
   <value>/root/hadoop/dfs/data</value>
   <description>Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.
</description>
</property>

<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>

<property>
   <name>dfs.permissions</name>
   <value>false</value>
  <description>need not permissions</description>
</property>

dfs.permissions配置为false后,可以允许不要检查权限就生成dfs上的文件,方便倒是方便了,但是你需要防止误删除,请将它设置为true,或者直接将该property节点删除,因为默认就是true。

(3)、修改 mapred-site.xml

在<configuration>节点内加入配置:

<!-- 配置mapReduce在Yarn上运行(默认本地运行) -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.2.1</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.2.1</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.2.1</value>
</property>

(4)、修改 yarn-site.xml

在<configuration>节点内加入配置:

<!-- Site specific YARN configuration properties -->

<property>
<description>指定YARN的老大(ResourceManager)的地址</description>
        <name>yarn.resourcemanager.hostname</name>
        <value>node180</value>
   </property>

<!-- NodeManager上运行的附属服务。需要配置成mapreduce_shfffle,才可运行MapReduce程序默认值 -->
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>

<!--
   <property>
<discription>每个节点可用内存,单位MB,默认8182MB</discription>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>1024</value>
   </property>
-->

<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

说明:yarn.nodemanager.vmem-check-enabled这个的意思是忽略虚拟内存的检查,如果你是安装在虚拟机上,这个配置很有用,配上去之后后续操作不容易出问题。如果是实体机上,并且内存够多,可以将这个配置去掉。

(5)、workers文件

改为:

node180

node181

node182

(6)、修改 hadoop-env.sh、mapred-env.sh、yarn-env.sh

加入jdk 配置路径

# jdk
export JAVA_HOME="/opt/module/jdk1.8.0_161"

5、修改 sbin

(1)、修改 start-dfs.sh、stop-dfs.sh

首行加入

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

(2)、修改 stop-dfs.sh、stop-yarn.sh

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

6、同步文件,各个节点

(1)同步hadoop文件夹

scp -r hadoop-3.2.1/    [email protected]:/opt/module

scp -r hadoop-3.2.1/    [email protected]:/opt/module

(2)同步数据文件夹

scp -r /root/hadoop/   [email protected]:/root

scp -r /root/hadoop/    [email protected]:/root

6、启动hadoop

(1)、在namenode上执行初始化

打开文件夹 :cd  /opt/module/hadoop-3.2.1/bin

执行命令:./hadoop namenode -format

(2)、在namenode上执行启动

打开文件夹 :cd  /opt/module/hadoop-3.2.1/sbin

执行命令:./start-all.sh

7、测试hadoop

https://blog.csdn.net/weixin_38763887/article/details/79157652

https://blog.csdn.net/s1078229131/article/details/93846369

打开:http://192.168.0.180:50070/

打开:http://192.168.0.180:8088/

8、测试分析

创建文件夹:hdfs dfs -mkdir -p /user/root

上传分词文件到hadoop服务器:wc.txt

执行命令: hdfs dfs -put /root/wc.txt

执行分词命令:hadoop jar /opt/module/hadoop-3.2.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount wc.txt wcount

执行结果查看命令:hdfs dfs -cat wcount/*

效果如图:

原文地址:https://www.cnblogs.com/qk523/p/12450215.html

时间: 2024-07-30 10:49:45

四 hadoop集群部署的相关文章

大数据学习初体验:Linux学习+Shell基础编程+hadoop集群部署

距离上次博客时间已经9天,简单记录下这几天的学习过程 2020-02-15 10:38:47 一.Linux学习 关于Linux命令,我在之前就已经学过一部分了,所以这段时间的linux学习更多的是去学习Linux系统的安装以及相关配置多一些,命令会一些比较常用的就够了,下面记录下安装配置Linux系统时的注意事项. 这里配置的虚拟机的内存为4g 使用的 CentOS-6.5-x86_64-minimal.iso 映射文件 在进入linux系统中时,需要将虚拟机的主机名修改成自己想要的名字,还要

Hadoop集群部署实战

Hadoop 集群搭建 目录 集群简介 服务器准备 环境和服务器设置 JDK环境安装 Hadoop安装部署 启动集群 测试 集群简介 在进行集群搭建前,我们需要大概知道搭建的集群都是些啥玩意. HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者在逻辑上分离,但物理上常在一起(啥意思?就是说:HDFS集群和YARN集群,他们俩是两个不同的玩意,但很多时候都会部署在同一台物理机器上) HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode (DataNode的管理

个人Hadoop集群部署

环境:centos 6.6 x64 (学习用3节点) 软件:jdk 1.7 + hadoop 2.7.3 + hive 2.1.1 环境准备: 1.安装必要工具 yum -y install openssh wget curl tree screen nano lftp htop mysql 2.使用163的yum源: cd /etc/yum.repo.d/ wget http://mirrors.163.com/.help/CentOS7-Base-163.repo #备份 mv /etc/y

Hadoop 集群部署

1.修改所有主机的 机器名[[email protected] ~]# vi /etc/networks hostname=hadoop1 2.做主机和IP映射 [[email protected] ~]# vi /etc/hosts 192.168.5.136 hadoop1 192.168.5.137 hadoop3 192.168.5.138 hadoop2 其中 一台修改后可以 拷贝scp -r /etc/hosts [email protected]\2:/etc 3.SSH免登陆 [

hadoop集群部署

1. 目录/opt/hadoop/etc/hadoop core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mip:9000</value> </property> </configuration> mip:在主节点的mip就是自己的ip,而所有从节点的mip是主节点的ip. 9000:主节点和从节点配

SPARK安装二:HADOOP集群部署

一.hadoop下载 使用2.7.6版本,因为公司生产环境是这个版本 cd /opt wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz 二.配置文件 参考文档:https://hadoop.apache.org/docs/r2.7.6 在$HADOOP_HOME/etc/hadoop目录下需要配置7个文件 1.core-site.xml <?xml version="1

Hadoop集群部署-Hadoop 运行集群后Live Nodes显示0

可以尝试以下步骤解决: 1 ,分别删除:主节点从节点的  /usr/local/hadoop-2.6.2/etc/tmp   下得所有文件; 2: 编辑cd usr/local/hadoop-2.6.2/etc/hadoop/    vi slaves 删除slaves里面的 localhost 3:然后 hadoop namenode -format 4: 重新启动  start-all.sh

Hadoop记录-Apache hadoop+spark集群部署

Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slave2 centos2 192.168.0.3 Centos 7.22.基础环境配置2.1 hostname配置1)修改主机名在192.168.0.1 root用户下执行:hostnamectl set

Python菜鸟的Hadoop实战——Hadoop集群搭建

Hadoop集群的部署 网上很多关于hadoop集群部署的文章, 我这里重新整理下,毕竟,别人的经历,让你按照着完整走下来,总有或多或少的问题. 小技巧分享: 有些初学者喜欢在自己机器上安装虚拟机来部署hadoop,毕竟,很多同学的学习环境都是比较受限的. 我这里则直接选择了阿里云的机器,买了三台ECS作为学习环境.毕竟,最低配一个月才40多块,学习还是要稍微投入点的. 一. 基础环境准备 Windows不熟练,小主只有选择Linux了. 官方提示如下,Linux所需软件包括: JavaTM1.