docker中搭建分布式hadoop集群

1、pull Ubuntu镜像配置Java环境

2、下载hadoop软件包

3、配置JAVA_HOME(hadoop-env.sh、mapred-env.sh、yarn-env.sh)

4、配置core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://127.17.0.5:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/root/data/tmp</value>
    </property>
</configuration>

5、配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>172.17.0.2:50090</value>
    </property>
</configuration>

6、配置slave

127.17.0.5
127.17.0.6
127.17.0.2

7、配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>172.17.0.6</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>106800</value>
    </property>
</configuration>

8、配置mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>172.17.0.5:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>172.17.0.5:19888</value>
    </property>
</configuration>

9、设置ssh登录

安装sshd

apt-get install openssh-serverservice ssh startps -e | grep ssh

生成秘钥

ssh-keygen -t rsa

设置root密码

passwd

设置root远程登录 PermitRootLogin yes

vim /etc/ssh/sshd_config/etc/init.d/ssh restart

分发公钥

ssh-copy-id 172.17.0.5
ssh-copy-id 172.17.0.6
ssh-copy-id 172.17.0.2

NameNode执行格式化

hdfs namenode –format

NodeNode(172.17.0.5)上启动HDFS集群

/sbin/start-dfs.sh

启动出错

The authenticity of host ‘127.17.0.2 (127.17.0.2)‘ can‘t be established.
Host key verification failed.
vi /etc/ssh/ssh_config

修改 StrictHostKeyChecking no

172.17.0.6  上启动ResourceManager

sbin/yarn-daemon.sh start resourcemanager

原文地址:https://www.cnblogs.com/csig/p/9975195.html

时间: 2024-08-14 11:11:59

docker中搭建分布式hadoop集群的相关文章

使用Docker Swarm搭建分布式爬虫集群

在爬虫开发过程中,你肯定遇到过需要把爬虫部署在多个服务器上面的情况.此时你是怎么操作的呢?逐一SSH登录每个服务器,使用git拉下代码,然后运行?代码修改了,于是又要一个服务器一个服务器登录上去依次更新? 有时候爬虫只需要在一个服务器上面运行,有时候需要在200个服务器上面运行.你是怎么快速切换的呢?一个服务器一个服务器登录上去开关?或者聪明一点,在Redis里面设置一个可以修改的标记,只有标记对应的服务器上面的爬虫运行? A爬虫已经在所有服务器上面部署了,现在又做了一个B爬虫,你是不是又得依次

Docker中搭建Hadoop-2.6集群

1.  单个Docker节点的配置 1.1 获取一个简单的Docker系统镜像,并建立一个容器. 1.2.1 这里我选择下载CentOS镜像 docker pull centos 1.2.2 通过docker tag命令将下载的CentOS镜像名称换成centos,然后建立一个简单容器 docker run -it --name=client1 centos /bin/bash 1.2 Docker容器中下载并安装Java 1.2.1 JDK下载 去Oracle官网选择要下载的JDK http:

在Docker下搭建Spark+HDFS集群

在Docker下搭建Spark+HDFS集群 1.      在VM中安装Ubuntu OS并实现root登录 (http://jingyan.baidu.com/article/148a1921a06bcb4d71c3b1af.html) 安装Vm增强工具 http://www.jb51.net/softjc/189149.html 2.      安装Docker docker安装方法一 ubuntu14.04以上的版本都是自带docker安装包的:所以可以直接安装:但是这个一般不是最先版本

高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南

(WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南 为了部署HA集群,应该准备以下事情: namenode服务器: 运行namenode的服务器应该有相同的硬件配置. journalnode服务器:运行的journalnode进程非常轻量,可以部署在其他的服务器上.注意:必须允许至少3个节点.当然可以运行更多,但是必须是奇数个,如3,5,7,9个等等.当运行N个节点时,系统可以容忍至少(N-1)/2个节点失败而不影响正常运行. 在HA集群中,standby状态的

Centos6下安装伪分布式Hadoop集群

Centos6下安装伪分布式hadoop集群,选取的hadoop版本是apache下的hadoop2.7.1,在一台linux服务器上安装hadoop后,同时拥有namenode,datanode和secondarynamenode等节点的功能,下面简单安装下. 前置准备 主要涉及防火墙关闭.jdk安装.主机名修改.ip映射.免密登录设置等. 关闭防火墙 有临时和永久,这里使用永久关闭的方式. # 临时关闭 [[email protected] ~]# service iptables stop

完全分布式Hadoop集群搭建

学习了这么久hadoop,都没有搭过集群,是不合格的.这次搭建完,细扣具体的Job运行情况,日志信息,对Hadoop了解更深了.后面也要陆续搭建分布式flume,kafka,hbase,mysql来完成最终的离线批处理分析项目. 搭建步骤 虚拟机环境准备(IP地址.主机名.新用户.防火墙.SSH免密访问) 安装jdk 安装hadoop 配置hadoop文件 虚拟机环境准备 用VMware配置三台Ubuntu 18.04虚拟机.配置如下: 内存4GB 处理器4 硬盘20GB VMware Tool

使用 Docker 搭建本地 Hadoop 集群

终于开始学习hadoop了,虽然是学校开课了才开始跟着学校的课程学,至少也是开始了.首先要做的就是搭建好一个hadoop的环境,需要三台主机,配置一个master两个slave的架构.老师让我们用vbox来做,但是个人觉得虚拟机太慢了,而且还要开三个,太亏.刚好最近开始接触docker,准备就在docker的环境下搭建hadoop环境. 安装docker 可以考虑使用国内的加速镜像 daocloud.io 注册后可以看到如何使用 由于我已经通过官网的方法安装了,这里就只记录下我的操作: curl

rancher+docker+k8s搭建容器管理集群

一, 环境准备 服务器 Linux k8s-m 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux m节点:10.0.0.202 s1节点:10.0.0.203 s2节点:10.0.0.204 测试环境关闭各种墙 systemctl stop firewalld.service systemctl stop firewalld.service docker 版本包 htt

S1_搭建分布式OpenStack集群_04 keystone认证服务安装配置

一.新建数据库及用户(控制节点)# mysql -uroot -p12345678MariaDB [(none)]> CREATE DATABASE keystone;MariaDB [(none)]> GRANT ALL PRIVILEGES ON keystone.* TO 'keystone'@'localhost' IDENTIFIED BY 'keystone123';MariaDB [(none)]> GRANT ALL PRIVILEGES ON keystone.* TO