docker搭建hadoop分布式系统

本来我一直想搭建一个hadoop分布式平台，没有高性能机器，也没有那么多机器，搞很很久，都没有能搞定。但基于docker，5-10min轻易搞定。

感谢大神KiwenLau的分享，网址是https://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/

一. 项目介绍

将Hadoop打包到Docker镜像中，就可以快速地在单个机器上搭建Hadoop集群，这样可以方便新手测试和学习。

如下图所示，Hadoop的master和slave分别运行在不同的Docker容器中，其中hadoop-master容器中运行NameNode和ResourceManager，hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件，负责储存输入以及输出数据，而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件，负责CPU和内存资源的调度。

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务，由于Docker网络功能更新，现在并不需要了。更新的版本中，使用以下命令为Hadoop集群创建单独的网络:

sudo docker network create --driver=bridge hadoop

然后在运行Hadoop容器时，使用”–net=hadoop”选项，这时所有容器将运行在hadoop网络中，它们可以通过容器名称进行通信。

项目更新要点：

去除serf/dnsmasq
合并Master和Slave镜像
使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装
优化Hadoop配置

二. 3节点Hadoop集群搭建步骤

1. 下载Docker镜像

sudo docker pull kiwenlau/hadoop:1.0

2. 下载GitHub仓库

git clone https://github.com/kiwenlau/hadoop-cluster-docker

3. 创建Hadoop网络

sudo docker network create --driver=bridge hadoop

4. 运行Docker容器

cd hadoop-cluster-docker./start-container.sh

运行结果

start hadoop-master container...start hadoop-slave1 container...start hadoop-slave2 container...[email protected]master:~#

启动了3个容器，1个master, 2个slave
运行后就进入了hadoop-master容器的/root目录

5. 启动hadoop

./start-hadoop.sh

6. 运行wordcount

./run-wordcount.sh

运行结果

input file1.txt:Hello Hadoopinput file2.txt:Hello Dockerwordcount output:Docker	1Hadoop	1Hello	2

Hadoop网页管理地址:

NameNode: http://192.168.59.1:50070/
ResourceManager: http://192.168.59.1:8088/

192.168.59.1为运行容器的主机的IP。

三. N节点Hadoop集群搭建步骤

1. 准备

参考第二部分1~3：下载Docker镜像，下载GitHub仓库，以及创建Hadoop网络

2. 重新构建Docker镜像

./resize-cluster.sh 5

可以指定任意N(N>1)

3. 启动Docker容器

./start-container.sh 5

与第2步中的N保持一致。

4. 运行Hadoop

参考第二部分5~6：启动Hadoop，并运行wordcount。

参考

原文地址：https://www.cnblogs.com/linwenbin/p/12028170.html

时间： 2024-11-10 22:16:47

docker搭建hadoop分布式系统的相关文章

Docker搭建Hadoop环境

文章目录 Docker搭建Hadoop环境 Docker的安装与使用拉取镜像克隆配置脚本创建网桥执行脚本 Docker命令补充更换镜像源安装vim 启动Hadoop 测试Word Count 查看Web管理页面 Docker搭建Hadoop环境 Hadoop集群环境配置起来相当繁琐,并且在学习Hadoop过程中没有一般不会去使用多台设备进行分布式集群配置.因此在一台机器上配置Hadoop分布式集群时通常采用虚拟机来模拟多台设备,但虚拟机较为占用系统资源,开多个虚拟机(模拟Hadoop

docker搭建Hadoop集群

一个分布式系统基础架构,由Apache基金会所开发. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储. 首先搭建Docker环境,Docker版本大于1.3.2 安装主机监控程序和加速器(curl -sSL https://get.daocloud.io/daomonit/install.sh | sh -s 7a029f60d36056fe1b85fabca6a133887245abe6) docker pull daocloud.io/library

使用Docker在本地搭建Hadoop分布式集群

学习Hadoop集群环境搭建是Hadoop入门必经之路.搭建分布式集群通常有两个办法: 要么找多台机器来部署(常常找不到机器) 或者在本地开多个虚拟机(开销很大,对宿主机器性能要求高,光是安装多个虚拟机系统就得搞半天……). 那么,问题来了! 有没有更有可行性的办法? 提到虚拟化,Docker最近很是火热!不妨拿来在本地做虚拟化,搭建Hadoop的伪分布式集群环境.虽然有点大材小用,但是学习学习,练练手也是极好的. 文章比较长,建议先倒杯水,听我慢慢到来…… 先说一下我的思路吧: 先使用Dock

用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群（下）-搭建Hadoop集群

上篇:用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(上)-快速上手Docker 上篇介绍了快速上手Docker部分,下面接着介绍搭建Hadoop集群部分. 六.搭建Hadoop伪分布模式我们先用前面创建的这个容器来搭建Hadoop伪分布模式做测试,测试成功后再搭建完全分布式集群. 1.SSH这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装.Hadoop需要SSH,但容器没有自带,需要我们安装.①安装SSH # yum -y ins

hadoop分布式系统下的mapreduce java小程序计算网站uv

一.准备工作 1.1 搭建hadoop分布式系统,博主是用3台虚拟机搭建的一个简易hadoop分布式系统. linux 5.5 64位 hadoop2.6.0 192.168.19.201 h1 (master) 192.168.19.202 h2 (slaver1) 192.168.19.203 h3 (slaver2) 1.2 准备网站访问IP文件由于是实验,一个简单的txt文件即可如:vim a.txt 10.0.0.1 10.0.0.2 10.0.0.

docker搭建hadoop2.8.5(2)

与docker搭建hadoop不一样的是,本次采用Dockerfile的方式构建镜像,然后启动镜像,形成多主机多容器的方式启动Hadoop集群. 1.在各个宿主机上搭建网桥weave curl -L git.io/weave -o /usr/local/bin/weave weave launch 2.各个宿主机通过weave网桥链接 192.168.130.166主机上操作: weave connect 192.168.130.167 weave connect 192.168.130.168

使用 Docker 搭建本地 Hadoop 集群

终于开始学习hadoop了,虽然是学校开课了才开始跟着学校的课程学,至少也是开始了.首先要做的就是搭建好一个hadoop的环境,需要三台主机,配置一个master两个slave的架构.老师让我们用vbox来做,但是个人觉得虚拟机太慢了,而且还要开三个,太亏.刚好最近开始接触docker,准备就在docker的环境下搭建hadoop环境. 安装docker 可以考虑使用国内的加速镜像 daocloud.io 注册后可以看到如何使用由于我已经通过官网的方法安装了,这里就只记录下我的操作: curl

【译文】用Spring Cloud和Docker搭建微服务平台

by Kenny Bastani Sunday, July 12, 2015 转自:http://www.kennybastani.com/2015/07/spring-cloud-docker-microservices.html This blog series will introduce you to some of the foundational concepts of building a microservice-based platform using Spring Cloud

在Linux上搭建Hadoop

在Linux上搭建Hadoop集群搭建笔记 1.安装虚拟机下载软件: VMware workstation CentOS 镜像 2.远程连接下载软件并安装 Xshell5 http://www.netsarang.com/products/xsh_overview.html xftp5 http://www.netsarang.com/products/xfp_overview.html (1)打开Xshell (2)输入会话名称和ip地址在右下角的位置将虚拟机的网络连接改为桥接模式且选中