大数据平台Hadoop的分布式集群环境搭建

1 概述

本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图，将NameNode部署在master1，SecondaryNameNode部署在master2，slave1、slave2、slave3中分别部署一个DataNode节点

NN=NameNode（名称节点）

SND=SecondaryNameNode（NameNode的辅助节点）

DN=DataNode（数据节点）
2 前期准备

（1）准备五台服务器

如：master1、master2、slave1、slave2、slave3

（2）关闭所有服务器的防火墙

$ systemctl stop firewalld
$ systemctl disable firewalld
（3）分别修改各服务器的/etc/hosts文件，内容如下：

192.168.56.132 master1
192.168.56.133 master2
192.168.56.134 slave1
192.168.56.135 slave2
192.168.56.136 slave3
注：对应修改个服务器的/etc/hostname文件，分别为 master1、master2、slave1、slave2、slave3
（4）分别在各台服务器创建一个普通用户与组

$ groupadd hadoop #增加新用户组
$ useradd hadoop -m -g hadoop #增加新用户
$ passwd hadoop #修改hadoop用户的密码
切换至hadoop用户：su hadoop

（5）各服务器间的免密码登录配置，分别在各自服务中执行一次

$ ssh-keygen -t rsa #一直按回车，会生成公私钥
$ ssh-copy-id [email protected] #拷贝公钥到master1服务器
$ ssh-copy-id [email protected] #拷贝公钥到master2服务器
$ ssh-copy-id [email protected] #拷贝公钥到slave1服务器
$ ssh-copy-id [email protected] #拷贝公钥到slave2服务器
$ ssh-copy-id [email protected] #拷贝公钥到slave3服务器
注：以上操作需要登录到hadoop用户操作
（6）下载hadoop包，hadoop-2.7.5.tar.gz

官网地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/

3 开始安装部署

（1）创建hadoop安装目录

$ mkdir -p /home/hadoop/app/hadoop/{tmp,hdfs/{data,name}}
（2）将安装包解压至/home/hadoop/app/hadoop下

$tar zxf tar -zxf hadoop-2.7.5.tar.gz -C /home/hadoop/app/hadoop
（3）配置hadoop的环境变量，修改/etc/profile

JAVA_HOME=/usr/java/jdk1.8.0_131
JRE_HOME=/usr/java/jdk1.8.0_131/jre
HADOOP_HOME=/home/hadoop/app/hadoop/hadoop-2.7.5
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH
（4）刷新环境变量

$source /etc/profile
4 配置Hadoop

（1）配置core-site.xml

$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/core-site.xml
<configuration>
<property>

fs.defaultFS
hdfs://master1:9000

hadoop.tmp.dir
/home/hadoop/app/hadoop/tmp

默认配置地址：http://hadoop.apache.org/docs/r2.7.5/hadoop-project-dist/hadoop-common/core-default.xml
（2）配置hdfs-site.xml
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/hdfs-site.xml

dfs.replication
3

dfs.namenode.name.dir
/home/hadoop/app/hadoop/hdfs/name

dfs.datanode.data.dir
/home/hadoop/app/hadoop/hdfs/data

dfs.permissions.enabled
false

dfs.namenode.secondary.http-address
master2:50090

默认配置地址：http://hadoop.apache.org/docs/r2.7.5/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
（3）配置mapred-site.xml
$ cp /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/mapred-site.xml.template /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/mapred-site.xml
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/mapred-site.xml

mapreduce.framework.name
yarn

默认配置地址：http://hadoop.apache.org/docs/r2.7.5/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
（4）配置yarn-site.xml
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.resourcemanager.hostname
master1

yarn.resourcemanager.address
master1:8032

yarn.resourcemanager.webapp.address
master1:8088

默认配置地址：http://hadoop.apache.org/docs/r2.7.5/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
（5）配置slaves
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/slaves
slave1
slave2
slave3
slaves文件中配置的是DataNode的所在节点服务
（6）配置hadoop-env
修改hadoop-env.sh文件的JAVA_HOME环境变量，操作如下：
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_131
（7）配置yarn-env
修改yarn-env.sh文件的JAVA_HOME环境变量，操作如下：
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/yarn-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_131
（8）配置mapred-env
修改mapred-env.sh文件的JAVA_HOME环境变量，操作如下：
$ vi /home/hadoop/app/hadoop/hadoop-2.7.5/etc/hadoop/mapred-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_131
（9）将master1中配置好的hadoop分别远程拷贝至maser2、slave1 、slave2、slave3服务器中
$ scp -r /home/hadoop/app/hadoop [email protected]:/home/hadoop/app/
$ scp -r /home/hadoop/app/hadoop [email protected]:/home/hadoop/app/
$ scp -r /home/hadoop/app/hadoop [email protected]:/home/hadoop/app/
$ scp -r /home/hadoop/app/hadoop [email protected]:/home/hadoop/app/
5 启动测试
（1）在master1节点中初始化Hadoop集群
$ hadoop namenode -format
（2）启动Hadoop集群
$ start-dfs.sh
$ start-yarn.sh
（3）验证集群是否成功
浏览器中访问50070的端口，如下证明集群部署成功
介绍完以上经验，下面小编给大家介绍一下程序员的学习圈
python学习qq群250933691
大数据学习qq群458345782
java学习qq群625241190
群里会给大家分享很棒的免费学习教程

原文地址：http://blog.51cto.com/14042734/2331922

时间： 2024-10-25 07:46:34

大数据平台Hadoop的分布式集群环境搭建的相关文章

阿里云ECS服务器部署HADOOP集群（一）：Hadoop完全分布式集群环境搭建

准备: 两台配置CentOS 7.3的阿里云ECS服务器: hadoop-2.7.3.tar.gz安装包: jdk-8u77-linux-x64.tar.gz安装包: hostname及IP的配置: 更改主机名: 由于系统为CentOS 7,可以直接使用‘hostnamectl set-hostname 主机名’来修改,修改完毕后重新shell登录或者重启服务器即可. 1 hostnamectl set-hostname master 2 exit 3 ssh [email protected]

Redis笔记整理（二）：Java API使用与Redis分布式集群环境搭建

[TOC] Redis笔记整理(二):Java API使用与Redis分布式集群环境搭建 Redis Java API使用(一):单机版本Redis API使用 Redis的Java API通过Jedis来进行操作,因此首先需要Jedis的第三方库,因为使用的是Maven工程,所以先给出Jedis的依赖: <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactI

Spark 1.6.1分布式集群环境搭建

一.软件准备 scala-2.11.8.tgz spark-1.6.1-bin-hadoop2.6.tgz 二.Scala 安装 1.master 机器 (1)下载 scala-2.11.8.tgz, 解压到 /opt 目录下,即: /opt/scala-2.11.8. (2)修改 scala-2.11.8 目录所属用户和用户组. ? 1 sudo chown -R hadoop:hadoop scala-2.11.8 (3)修改环境变量文件 .bashrc , 添加以下内容. ? 1 2 3

Hadoop全分布式集群环境配置

Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop实现了一个分布式系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS

Hadoop分布式集群环境搭建

分布式环境搭建之环境介绍之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境,所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境. 我这里准备了三台机器,IP地址如下: 192.168.77.128 192.168.77.130 192.168.77.134 首先在这三台机器上编辑/etc/hosts配置文件,修改主机名以及配置其他机器的主机名 [[email protected] ~]# vim /etc/host

spark1.6分布式集群环境搭建

1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群. 2. 安装环境本安装说明的示例环境部署如下: IP 外网IP hostname 备注 10.47.110.38 120.27.153.137 iZ237654q6qZ Master.Slaver 10.24.35.51 114.55.56.190 iZ23pd81xqaZ Slaver 10.45.53.136 114.55.11.55 iZ23mr5ukpzZ

Kafka 完全分布式集群环境搭建

思路: 先在主机s1上安装配置,然后远程复制到其它两台主机s2.s3上, 并分别修改配置文件server.properties中的broker.id属性. 1. 搭建前准备示例共三台主机,主机IP映射信息如下: 192.168.32.101 s1 192.168.32.102 s2 192.168.32.103 s3 搭建ZooKeeper 集群,搭建步骤参考: https://www.cnblogs.com/jonban/p/zookeeper.html 2.下载 Kafka 下载地址: h

zookeeper伪分布式集群环境搭建

step1.下载下载地址:http://zookeeper.apache.org/releases.html 将下载的压缩包放到用户家目录下(其他目录也可以) step2.解压 [plain] view plain copy $tar –zxvf zookeeper-3.4.6.tar.gz 重命名 [plain] view plain copy $mv zookeeper-3.4.6 zookeeper step3.配置进入zookeeper/conf/目录下,将改目录下的zoo_samp

消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试

一.什么是kafka? kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目.在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ.Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB) 二.kafka的官方网站在哪里? http://kafka.apache.org/ 三.在哪里下载?需要哪些组件的支持? kafka2.9.2在下面的地址可以下载:

猜你喜欢

Java中的值传递和引用传递

解释 1.Java中有没有引用传递? 答:Java中只有按值传递,没有按引用传递! 2.当一个对象被当作参数传递到一个方法中后,在此方法中可改变这个对象的属性,并可返回变化后的结果,那么这里到底是值传 ...

IDictionary与TryGetValue

using System; using System.Collections.Generic; namespace net.howsoftworks { class TryGetValue { sta ...

HTTP常见状态码

成功的状态码: 200 – 服务器成功返回网页 304 – 未修改失败的状态码: 404 – 请求的网页不存在 503 – 服务器暂时不可用 500 – 服务器内部错误下面的不是很常用,记住上面那 ...

fullpage 插件学习心得

fullpage.js 是一个基于jquery 的插件,它能够轻松的制作出高大上的全屏网站,主要功能有; 1．支持鼠标滚动 2．支持前进后退和键盘控制 3．多个回调函数 4．支持 CSS3 动画 5． ...

SQL Server中的内连接

内连接是查询的重点,也是数据库学习的重点. 待查询的是scott数据库中的三个表: emp表: dept表: salgrade表: 1.select .... from A ,B的用法 --emp是1 ...

设置statusBar状态栏颜色

设置statusBar的[前景部分] 简单来说,就是设置显示电池电量.时间.网络部分标示的颜色, 这里只能设置两种颜色: 默认的黑色(UIStatusBarStyleDefault) 白色(UISta ...

多行文本溢出显示省略号(…) text-overflow: ellipsis

关于text-overflow text-overflow 属性规定当文本溢出包含元素时发生的事情. 默认值: clip 继承性: no 版本: CSS3 JavaScript 语法: object. ...

was缓存以致web.xml更改无效

was缓存导致web.xml更改无效在项目中经常遇见这样的问题:修改应用的配置文件web.xml后,无论重启应用还是重启WebSphere服务器,都不能重新加载web.xml,导致修改的内容无效. ...

第一篇、linux目录结构

一.linux系统的目录结构: 1.逻辑上所有的目录只有一个顶点/(根),所有目录的起点,根下面类似一个倒挂着的树一样的层次结构,tree -L显示层数,tree -L 1 /在根下显示一层 2.l ...

IOS 错误原因

当xcode提示以下错误时,很可能的原因是由于ViewController中的View在Controller中连接了outlet,然后又删除了Controller中对应的属性,导致xcode找不到这个 ...

为什么学习html5

html5 2010年正式推出新的web时代优势: 1,跨平台运行 PC MAC LINUX 手机 PAD 2,硬件要求低 3,flash之外的选择 h ...

Cisco 3550配置DHCP中继代理

实验环境: 1.配置两个VLAN 10 和 VLAN 20 VLAN 10 IP地址设置:192.168.10.1 255.255.255.0 (192.168.10.1是VLAN 10网关 ...

tp5 中 model 的更新方法

// 过滤非数据表字段更新 public function update(Request $request){ $user = model('User'); $result = $user -> ...

费马大定理

使用lsof恢复rm -rf删除后的文件

在Linux系统中使用rm -rf删除文件后,其实文件只是从磁盘中移除,文件内容还是在系统后台等待回收,此时可以使用系统进程号将文件考贝出来,内容不会有更改. 1.删除一个文件 [[email pro ...

基于layer封装的异步加载分部视图弹出层

背景:之前一直用的artdialog,但是样式不是很好看,后来偶然看到layer,觉得不错,但是对于.net mvc来说,不能像artdialog一样弹出分部视图是很难受的.所以下面的方法就解决了. ...

Spring cloud Eureka 服务治理(高可用服务中心)

在微服务的架构中,我们考虑发生故障的情况,所以在生产环境中我们需要对服务中各个组件进行高可用部署. Eureka Server 的高可用实际上就是将自己作为服务想其它服务注册中心注册自己,这样就形成了 ...

Selenium IDE安装

Selenium IDE(集成开发环境)是一种开发Selenium测试案例的工具.简单的说,它其实是依赖于Firefox的插件,提供录制回放的功能,忠实的记录着用户在浏览器所执行的操作. 安装方法: ...

【转载】CodeIgniter与PHP5.6的兼容问题

错误提示: A PHP Error was encountered Severity: Notice Message: Only variable references should be retur ...

4. Qt的容器类

Qt提供来一组通用的基于模板的容器类. 一. QList类,QLinkedList类和 QVector类 QList类.QLinkedList类和QVector类经常使用到的Q ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.