SPARK安装二：HADOOP集群部署

一、hadoop下载

使用2.7.6版本，因为公司生产环境是这个版本

cd /opt
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz

二、配置文件

参考文档：https://hadoop.apache.org/docs/r2.7.6

在$HADOOP_HOME/etc/hadoop目录下需要配置7个文件

1.core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://pangu10:9000</value>
        <description>NameNode URI,hdfs处理对外端口</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hdfs/tmp</value>
        <description>hdfs重新格式化时(如新增了一个datenode)需要删除这个临时目录</description>
    </property>
</configuration>

2.hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hdfs/name</value>
        <description>namenode上存储hdfs名字空间元数据 </description>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hdfs/data</value>
        <description>datanode上数据块的物理存储位置</description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
        <description>设置dfs副本数，不设置默认是3个</description>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>pangu11:50090</value>
        <description>设置secondname的端口</description>
    </property>
</configuration>

3.yarn-site.xml

<?xml version="1.0"?>
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>pangu10</value>
        <description>指定resourcemanager所在的hostname</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        <description>NodeManager上运行的附属服务,需配置成mapreduce_shuffle，才可运行MapReduce程序</description>
    </property>

    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>

    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

4.mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        <description>指定mapreduce使用yarn框架</description>
    </property>
</configuration>

5.slaves

pangu10
pangu11
pangu12

6.yarn-env.sh

找到第23行

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

替换成

export JAVA_HOME=/opt/jdk1.8.0_181/

7.hadoop-env.sh

找到25行

export JAVA_HOME=${JAVA_HOME}

替换成

export JAVA_HOME=/opt/jdk1.8.0_181/

三、复制到slave

四、hdfs格式化

shell执行如下命令

hadoop namenode -format

如果出现下面红色的日志内容则格式化成功

18/10/12 12:38:33 INFO util.GSet: capacity = 2^15 = 32768 entries
18/10/12 12:38:33 INFO namenode.FSImage: Allocated new BlockPoolId: BP-1164998719-192.168.56.10-1539362313584
18/10/12 12:38:33 INFO common.Storage: Storage directory /opt/hdfs/name has been successfully formatted.
18/10/12 12:38:33 INFO namenode.FSImageFormatProtobuf: Saving image file /opt/hdfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
18/10/12 12:38:33 INFO namenode.FSImageFormatProtobuf: Image file /opt/hdfs/name/current/fsimage.ckpt_0000000000000000000 of size 320 bytes saved in 0 seconds.
18/10/12 12:38:33 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
18/10/12 12:38:33 INFO util.ExitUtil: Exiting with status 0
18/10/12 12:38:33 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at pangu10/192.168.56.10
************************************************************/

五、启动hadoop

原文地址：https://www.cnblogs.com/Netsharp/p/9780971.html

时间： 2024-10-31 02:00:24

SPARK安装二：HADOOP集群部署的相关文章

大数据学习初体验：Linux学习+Shell基础编程+hadoop集群部署

距离上次博客时间已经9天,简单记录下这几天的学习过程 2020-02-15 10:38:47 一.Linux学习关于Linux命令,我在之前就已经学过一部分了,所以这段时间的linux学习更多的是去学习Linux系统的安装以及相关配置多一些,命令会一些比较常用的就够了,下面记录下安装配置Linux系统时的注意事项. 这里配置的虚拟机的内存为4g 使用的 CentOS-6.5-x86_64-minimal.iso 映射文件在进入linux系统中时,需要将虚拟机的主机名修改成自己想要的名字,还要

Spark的介绍和集群部署

介绍 1.spark处理大数据的统一分析计算引擎: a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍: b.易用性:spark提供多种语言的API,如Java.Python.Scala.R.SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL.spark Stresaming.spark MLLib和图计算: d.运行: spark支持在hadoop.Hadoop, Apache Mesos, Kubernetes, standalo

Hadoop集群部署实战

Hadoop 集群搭建目录集群简介服务器准备环境和服务器设置 JDK环境安装 Hadoop安装部署启动集群测试集群简介在进行集群搭建前,我们需要大概知道搭建的集群都是些啥玩意. HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者在逻辑上分离,但物理上常在一起(啥意思?就是说:HDFS集群和YARN集群,他们俩是两个不同的玩意,但很多时候都会部署在同一台物理机器上) HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode (DataNode的管理

Mongo DB 安装-及分布式集群部署(初稿)

一.安装步骤, 1, 下载最新的Mongo DB数据库:http://www.mongodb.org/downloads?_ga=1.44426535.2020731121.1421844747\ 下载的是一个Zip的. 将其解压后,放置到F盘, 或是其它盘, 创建下面文件夹,config,data,log config目录内容:创建MongoDB.conf文件,内容如图 data目录下,再创建一个目录 db log目录下,创建一个文件 primary.log 2, 将F:\mongodb\bi

个人Hadoop集群部署

环境:centos 6.6 x64 (学习用3节点) 软件:jdk 1.7 + hadoop 2.7.3 + hive 2.1.1 环境准备: 1.安装必要工具 yum -y install openssh wget curl tree screen nano lftp htop mysql 2.使用163的yum源: cd /etc/yum.repo.d/ wget http://mirrors.163.com/.help/CentOS7-Base-163.repo #备份 mv /etc/y

Hadoop 集群部署

1.修改所有主机的机器名[[email protected] ~]# vi /etc/networks hostname=hadoop1 2.做主机和IP映射 [[email protected] ~]# vi /etc/hosts 192.168.5.136 hadoop1 192.168.5.137 hadoop3 192.168.5.138 hadoop2 其中一台修改后可以拷贝scp -r /etc/hosts [email protected]\2:/etc 3.SSH免登陆 [

hadoop集群部署

1. 目录/opt/hadoop/etc/hadoop core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mip:9000</value> </property> </configuration> mip:在主节点的mip就是自己的ip,而所有从节点的mip是主节点的ip. 9000:主节点和从节点配

四 hadoop集群部署

1.准备环境 centos 7.4 hadoop hadoop-3.2.1 (http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz) jdk 1.8.x 2.配置环境变量命令:vi /etc/profile #hadoop #hadoopexport HADOOP_HOME=/opt/module/hadoop-3.2.1export PATH=$PATH:$HADOOP_HOME

Hadoop集群部署-Hadoop 运行集群后Live Nodes显示0

可以尝试以下步骤解决: 1 ,分别删除:主节点从节点的 /usr/local/hadoop-2.6.2/etc/tmp 下得所有文件; 2: 编辑cd usr/local/hadoop-2.6.2/etc/hadoop/ vi slaves 删除slaves里面的 localhost 3:然后 hadoop namenode -format 4: 重新启动 start-all.sh