Hadoop2.6.5分布式集群搭建和测试

vmware虚拟机环境：

                192.168.60.128    master
                192.168.60.129    node129
                192.168.60.130    node130

1、修改每台虚拟机的/etc/sysconfig/network和/etc/hosts

#修改hostname：vim /etc/sysconfig/network

#修改hosts内容如下：vim /etc/hosts

                192.168.60.128    master
                192.168.60.129    node129
                192.168.60.130    node130

2、配置三台机器互信(以128机器为例)：

2.1 ssh-keygen -t rsa
2.2 ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
   ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
2.3  剩下的每台机器上都要重复上面的操作

3.安装jdk和配置环境变量

分别在每台主机上安装jdk，并配置环境变量。（嫌麻烦的前面可以安装完jdk后再克隆）

1）下载jdk安装包（自行百度），并将安装包拖入到虚拟机当中

2）通过cd命令进入到安装包的当前目录，利用如下命令进行解压缩。

tar -zxvf jdk.....(安装包名称)

3）利用如下命令将解压后的文件夹移到/usr目录下　

#注意，这样移动到/usr以后就没有jdk1.8...这个目录了，是将这个目录下的所有文件全部移动到/usr/java下，mv jdk1.8...(文件夹名称) /usr/java

4）配置环境变量

sudo vim /etc/profile

在末尾加上四行：

#java

export JAVA_HOME=/usr/java

export JRE_HOME=/usr/java/jre

export CLASSPATH=$JAVA_HOME/lib

export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

输入如下命令使配置生效：source /etc/profile

4.master配置hadoop,然后将master的hadoop文件传送给node节点

1）解包移动

#解压hadoop包  
tar -zxvf hadoop...  
#将安装包移到/home/hadoop目录下  
mv hadoop... /home/hadoop/hadoop

2）新建文件夹

#在/home/hadoop目录下新建如下目录  
mkdir dfs  
mkdir dfs/name  
mkdir dfs/data  
mkdir tmp

修改JAVA_HOME值（export JAVA_HOME=/usr/java）

4)配置文件：yarn-env.sh

修改JAVA_HOME值（export JAVA_HOME=/usr/java）

5)配置文件：slaves

将内容修改为：

node129
node130

6)配置文件：core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

</configuration>

7)配置文件：hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>

<value>master:9001</value>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

8)配置文件：mapred-site.xml

先创建然后编辑

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

　　　　　　<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

</configuration>

9)配置文件：yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

</configuration>

10)将hadoop传输到node129和node130 /home/hadoop目录

 scp -r /home/hadoop/hadoop [email protected]:/home/hadoop
 scp -r /home/hadoop/hadoop [email protected]:/home/hadoop

5、配置环境变量，并启动hadoop，检查是否安装成功1）配置环境变量

#编辑/etc/profile
sudo vim /etc/profile
#以上已经添加过java的环境变量,在后边添加就可以
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin

执行

source /etc/profile

使文件生效。

2）启动hadoop,进入hadoop安装目录

bin/hdfs namenode -format
sbin/start-all.sh

3)启动后分别在master, node下输入jps查看进程

看到下面的结果，则表示成功。

Master:

node:

6.向hadoop集群系统提交第一个mapreduce任务(wordcount)

1、 hdfs dfs -mkdir -p /data/input在虚拟分布式文件系统上创建一个测试目录/data/input

2、 hdfs dfs -put README.txt /data/input 将当前目录下的README.txt 文件复制到虚拟分布式文件系统中

3、 hdfs dfs-ls /data/input 查看文件系统中是否存在我们所复制的文件

4、运行如下命令向hadoop提交单词统计任务

进入jar文件目录，执行下面的指令。

hadoop jar /home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /data/input /data/output/result

查看result，结果在result下面的part-r-00000中

hdfs dfs -cat /data/output/result/part-r-00000

自此，hadoop集群搭建成功！

时间： 2024-11-08 13:48:45

Hadoop2.6.5分布式集群搭建和测试的相关文章

分布式实时日志系统（四）环境搭建之centos 6.4下hbase 1.0.1 分布式集群搭建

一.hbase简介 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务.因此,它可以容错地存储海量稀疏的数据.HBase在列上实现了BigTable论文提到的压缩算法.内存操作和布隆过滤器.HBase的表能够作为MapReduce任务的输入和输出,可以通过Java API来存取数据,也可以

Hadoop 分布式集群搭建 & 配置

一. 安装Java Java下载官网下载合适的jdk,本人使用的是jdk-7u79-linux-x64.tar.gz,接下来就以该版本的jdk为例,进行Java环境变量配置创建Java目录在/usr/local目录下创建java目录,用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量编辑profile文件 cd /etc vim profi

Hadoop伪分布式集群搭建总结

Hadoop伪分布式集群搭建总结一.所需软件VMware15!CentOS6.5JDK1.8Hadoop2.7.3二.安装注意:对文件进行编辑:输入a,表示对该文件进行编辑,最后保存该文件,操作为:点击键盘上的Esc按钮,然后输入英文的:字符,再输入wq,点击回车,完成文件的保存.1.关闭防火墙和禁用SELINUX(1).永久关闭防火墙,重启Linux系统(2) .禁用SELINUX:修改文件参数重启Linux使其生效(3).检查防火墙是否运行,显示下图即为关闭2.配置hostname与IP

Hadoop全分布式集群搭建（详细）

一.准备物理集群.1.物理集群搭建方式.采用搭建3台虚拟机的方式来部署3个节点的物理集群.2.虚拟机准备.准备一个已近建好的虚拟机进行克隆.(建议为没进行过任何操作的)在要选择克隆的虚拟机上右击鼠标,管理,克隆.在弹出对话框中进行以下操作.(1).下一步.(2).选择虚拟机中的当前状态,下一步. (3).选择创建完整克隆,下一步.(4).输入虚拟机名称,下一步.(5).克隆完成.(6).按照上述步骤再创建一个虚拟机名称为slave02的.3.虚拟机网络配置.由于slave01和slave02虚拟

阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里云ECS服务器:master, slave1, slave2 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色

Hadoop完全分布式集群搭建

Hadoop的运行模式 Hadoop一般有三种运行模式,分别是: 单机模式(Standalone Mode),默认情况下,Hadoop即处于该模式,使用本地文件系统,而不是分布式文件系统.,用于开发和调试. 伪分布式模式(Pseudo Distrubuted Mode),使用的是分布式文件系统,守护进程运行在本机机器,模拟一个小规模的集群,在一台主机模拟多主机,适合模拟集群学习. 完全分布式集群模式(Full Distributed Mode),Hadoop的守护进程运行在由多台主机搭建的集群上

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事. 现将前期手里面的一个项目做一个大致的总结,与大家一起分享.交流.进步.项目现在正在线上运行,项目名--基于Hadoop的数据分析综合管理平台. 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-->热点话题发现-->报表"实时"展示,使用到的技术也是当今互联网公司常用的技术:Hadoop.Mahout.HBase.Spring Data Had

Storm分布式集群搭建

Storm分布式集群搭建 1.解压Storm压缩文件 [[email protected] software]# tar -zxf apache-storm-0.10.0.tar.gz -C /opt/modules [[email protected] software]# cd /opt/modules [[email protected] modules]# mv apache-storm-0.10.0 storm-0.10.0 2.配置Storm的配置文件部署依赖环境 Java 6+

kafka系列二：多节点分布式集群搭建

上一篇分享了单节点伪分布式集群搭建方法,本篇来分享一下多节点分布式集群搭建方法.多节点分布式集群结构如下图所示: 为了方便查阅,本篇将和上一篇一样从零开始一步一步进行集群搭建. 一.安装Jdk 具体安装步骤可参考 linux安装jdk. 二.安装与配置zookeeper 下载地址:https://www-us.apache.org/dist/zookeeper/stable/ 下载二进制压缩包 zookeeper-3.4.14.tar.gz,然后上传到linux服务器指定目录下,本次上传目录为