大数据集群搭建

一.环境支持

  • 操作系统: CentOS7 64
  • JDK环境: JDK 8
  • Hadoop环境: hadoop-2.8.0
  • 虚拟机名称: master(主)+slave1(从1)+slave2(从2)

CentOS7 64位百度网盘下载地址:

链接:https://pan.baidu.com/s/1dcQ9_vu1nWZ_lcNqaWLtYQ
提取码:35cf
JDK 8百度网盘下载地址:

链接:https://pan.baidu.com/s/1nbDic_eD8Aio8NFk-k7R2g
提取码:kth1
hadoop-2.8.0百度网盘下载地址:

链接:https://pan.baidu.com/s/1AZDLEVrG53pqG84u-2Gysw
提取码:o90j
复制这段内容后打开百度网盘手机App,操作更方便哦

虚拟机不限版本

二.设置各个主机名称

1.#编辑hostname配置文件

vim /etc/hostname

2.将各个主机的名称填入到具体的hostname文件中

3.使用hostname命令查看主机名是否成功修改

三.配置JDK的环境变量

1.将jdk的安装包通过xftp上传到master下的/usr/local目录下(可以自己选择存放目录)

2.找到存放jdk的目录解压

tar -zxvf jdk-8u121-linux-x64.tar.gz

3.通过scp命令将解压好的jdk发送给其他对应的两台主机

scp -r /usr/local/jdk1.8.0_121/ [email protected]您的IP:/usr/local/

4.接下来,分别卸载各自主机上默认安装的不完整的jdk

rpm -qa|grep jdk   #查看默认安装的jdk

5.逐个卸载


rpm -e --nodeps java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.91-2.6.2.3.el7.x86_64

#我这个只是示例,实际看自己的jdk

6.三台主机配置/etc/profile文件,加入JAVA_HOME变量


#编辑profile文件

vim /etc/profile

#加入以下内容,请各位视自身的安装目录为准

export JAVA_HOME=/usr/local/jdk1.8.0_121

export CLASSPATH=.:%JAVA_HOME%/lib/dt.jar:%JAVA_HOME%/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

#刷新配置文件

source /etc/profile

#查看配置是否成功

java -version

4.hadoop配置

1.将hadoop-2.8.0.tar.gz文件通过xftp上传到master下的/usr/local下

2.解压压缩包

tar -zxvf hadoop-2.8.0.tar.gz

3.配置hadoop的环境变量


#编辑profile文件

vim /etc/profile

#加入以下内容,请各位视自身的安装目录为准

export HADOOP_HOME=/usr/local/hadoop-2.8.0

export PATH=$PATH:$HADOOP_HOME/bin:$PATH:$HADOOP_HOME/sbin

#刷新配置文件

source /etc/profile

4.编辑hosts文件,将三台主机的主机名称对应的ip地址写入


#编辑hosts文件

vim /etc/hosts

#写入如下内容,注意IP地址以自身为准

192.168.93.129 master

192.168.93.130 slave1

192.168.93.131 slave2

5. 完成hadoop内部的配置

#切换到指定目录下

cd /usr/local/hadoop-2.8.0/etc/hadoop/

#配置slaves文件

vim slaves

#增加slave主机名,删除掉原有的localhost(必须删除localhost否侧主节点也会被认为是从节点)

slave1

slave2

#配置core-site.xml文件

vim core-site.xml

#在configuration节点中加入如下节点

<property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<!--视自身的安装位置决定-->

<value>/usr/local/hadoop-2.8.0/tmp</value>

</property>

#配置hdfs-site.xml文件

vim hdfs-site.xml

#在configuration节点中加入如下节点

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>master:50090</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<!--以自身安装目录为准-->

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop-2.8.0/hdfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop-2.8.0/hdfs/data</value>

</property>

#编辑hadoop-env.sh和yarn-env.sh两个文件

vim hadoop-env.sh

vim yarn-env.sh

#加入以下内容(目录视自身jdk安装位置)

export  JAVA_HOME=/usr/local/jdk1.8.0_121/

#配置mapreduce

#由于mapred-site.xml文件不存在,需要将mapred-site.xml.template克隆出来一份

cp mapred-site.xml.template  mapred-site.xml

vim mapred-site.xml

#在configuration中加入如下内容

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

#配置yarn

vim yarn-site.xml

#在configuration节点中加入如下内容

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

#将Hadoop拷贝到另外两台slave从节点

通过scp命令将已配置好的对应内容发送到slave主机上


#发送已配置好的hadoop-2.8.0目录

scp -r /usr/local/hadoop-2.8.0 [email protected]:/usr/local/

scp -r /usr/local/hadoop-2.8.0 [email protected]:/usr/local/

#发送已配置好的profile文件

scp /etc/profile [email protected]:/etc/

scp /etc/profile [email protected]:/etc/

之后在每个子机器中使用 source /etc/profile 使文件生效

5.启动Hadoop集群服务

1、在master主机上运行如下

hdfs namenode -format   注意:此命令只用执行一次,以后再开启集群时不用在执行此命令,谨记

2、启动服务命令

start-all.sh(如果没有配置免密会有很多次需要输入密码,建议配置免密)

3、停止集群的命令

stop-all.sh

4、查看进程是否启动成功

Master:

Slave:

Hadoop集群到此搭建完毕!!!

原文地址:https://www.cnblogs.com/tkzm/p/11395836.html

时间: 2024-10-29 13:26:36

大数据集群搭建的相关文章

Ambari2.6.2 HDP2.6.5 大数据集群搭建

Ambari 2.6.2 中 HDFS-2.7.3 YARN-2.7.3 HIVE-1.2.1 HBASE-1.1.2 ZOOKEEPER-3.4.6 SPARK-2.3.0 注:本文基于root用户操作 一.安装环境准备 操作系统 centos7.5 hdc-data1:192.168.163.51 hdc-data2:192.168.163.52 hdc-data3:192.168.163.53 [安装环境准备每台集群机器一样的操作,或者使用scp远程拷贝] 1.主机名IP映射配置 FQDN

基于Docker搭建大数据集群(六)Hive搭建

基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是hive3.1.2版本的..还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用spark做解析引擎的,存储还是用的HDFS 我是在docker里面搭建的集群,所以都是基于docker操作的 一.安装包准备 Hive官网下载 微云下载 | 在 tar 目录下 二.版本兼容 我使用的相关软件版本 Hadoop ~ 2.7.7 Spark ~ 2.4.4 JDK ~ 1.8.0_221 S

基于Docker搭建大数据集群(七)Hbase部署

基于Docker搭建大数据集群(七)Hbase搭建 一.安装包准备 Hbase官网下载 微云下载 | 在 tar 目录下 二.版本兼容 三.角色分配 节点 Master Regionserver cluster-master yes no cluster-slave1 backup yes cluster-slave2 no yes cluster-slave3 no yes 四.配置修改 hbase-env.sh export JAVA_HOME=/opt/jdk/jdk1.8.0_221 h

基于Docker搭建大数据集群(一)Docker环境部署

本篇文章是基于Docker搭建大数据集群系列的开篇之作 主要内容 docker搭建 docker部署CentOS 容器免密钥通信 容器保存成镜像 docker镜像发布 环境 Linux 7.6 一.Docker安装 安装工具包 bash yum install -y yum-utils #安装工具包,缺少这些依赖将无法完成 设置远程仓库 bash yum-config-manager --add-repo https://download.docker.com/linux/centos/dock

大数据集群本地安装方法

大数据集群本地安装方法 1.使用Vmware安装Linux系统 请自行下载,并安装.至少安装两台(这里以安装三台为例) 2. 安装xshell和xftp 安装xshell和xftp主要主要是方面后面传文件.写命令等操作. (注意,xshell和xftp的版本一定要一致,不然安装xftp可能会有问题) 3. 配置虚拟机IP A. 每台虚拟机都用root账号登录 a.  编辑hosts文件(使用以下命令) sudo vi /etc/hosts 添加以下内容 192.168.79.131 master

基于PostgreSQL的可扩展的开源大数据集群数据库:Postgres-XL

基于PostgreSQL的可扩展的开源大数据集群数据库:Postgres-XL http://www.postgres-xl.org/ Postgres的-XL是一个基于PostgreSQL数据库的横向扩展开源SQL数据库集群,具有足够的灵活性来处理不同的数据库工作负载: OLTP 写频繁的业务 需要MPP并行性商业智能 操作数据存储 Key-value 存储 GIS的地理空间 混合业务工作环境 多租户服务提供商托管环境 可扩展性 Postgres-XL(eXtensible Lattice),

6个人如何维护上千规模的大数据集群?

本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛:如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等. 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开直播分享基础知识,晚上20:00都会开直播给大家分享大数据项目实战. 饿了么 BDI-大数据平台研发团队目前共有 20 人左右,主要负责离线&实时 Infra 和平台工

Ambari和大数据集群部署(精华)

(个人经历,如有问题请于评论区提出宝贵意见) 踩了无数的坑,终于将ambari和大数据集群部署成功了,请一定要按照步骤仔细操作,避免出现问题. 英文官方文档链接:https://docs.hortonworks.com/HDPDocuments/Ambari-2.5.1.0/bk_ambari-installation/bk_ambari-installation.pdf 基础环境操作系统:ubuntu16HDP: 2.6.2.14Hdp-utils:1.1.0.21Ambari:2.5.2.0

大数据之一:Hadoop2.6.5+centos7.5三节点大数据集群部署搭建

一. VM虚拟环境搭建(详细讲解) 说明:在windos10上使用VmWare Workstation创建3节点Hadoop虚拟环境创建虚拟机下一步设置虚拟机主机名和介质存放路径设置20G磁盘大小选择"自定义硬件"配置网络模式为NAT模式配置虚拟机启动镜像到这里,使用虚拟机克隆技术配置另外两台slave 同理克隆slave2, 步骤省略 此时windos网络连接里面会出现两张虚拟网卡 接下来就是给虚拟机配置IP网络 虚拟机网卡IP要和NAT模式的IP是在同一个段,虚拟机才能通过wind