Hadoop1.2.1 完全分布式集群搭建实操笔记

前期准备工作:

1.修改Linux主机名:/etc/hostname

ubuntu系统:vi /etc/hostname

将ubuntu默认的主机名ubuntu改为suh01

2.修改IP:/etc/network/interfaces

修改配置文件/etc/network/interfaces

vi /etc/network/interfaces

#将原来的内容注释掉:

#auto lo

#iface lo inet loopback

#然后添加以下内容:

auto eth0                  #设置自动启动eth0接口

iface eth0 inet static     #配置静态IP

address 192.168.1.101      #IP地址

netmask 255.255.255.0      #子网掩码

gateway 192.168.1.1        #默认网关

3.修改主机名和IP的映射关系:/etc/hosts

vi /etc/hosts

#127.0.0.1      localhost

192.168.1.201        suh01

192.168.1.202        suh02

192.168.1.203        suh03

4.查看防火墙状态、关闭防火墙:ufw status 、ufw disable

5.安装JDK,配置环境变量等。

5.1上传:使用ftp工具上传jdk安装文件

#创建文件夹,将安装文件上传至此目录下

mkdir /usr/java

5.2解压jdk

tar -zxvf jdk-7u76-linux-x64.tar.gz

5.3将java添加到环境变量中

vi /etc/profile

#在文件最后添加

export JAVA_HOME=/usr/java/jdk1.7.0_76

export PATH=$PATH:$JAVA_HOME/bin

#刷新配置

source /etc/profile

6.ssh免登陆:

6.1在suh01上执行:

ssh-keygen -t rsa (直接回车)

执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

6.2然后将公钥拷贝到要免登陆的机器上

ssh-copy-id suh01  (最好也给自己设置免登陆)

ssh-copy-id suh02

ssh-copy-id suh03

集群规划:

主机名                IP                       安装的软件                                        运行的进程

suh01        192.168.1.201           jdk、hadoop                        NameNode、JobTracker、SecondaryNameNode

suh02        192.168.1.202           jdk、hadoop                                        DataNode、TaskTracker

suh03        192.168.1.203           jdk、hadoop                                        DataNode、TaskTracker

IP与主机名映射关系

-----------------------

192.168.1.201        suh01

192.168.1.202        suh02

192.168.1.203        suh03

-----------------------

安装步骤: 

1.安装配置hadoop集群(总共修改了六个配置文件:hadoo-env.sh、core-site.xml、hdfs-site.xml、slaves、yarn-site.xml、mapred-site.xml )

1.1上传并解压hadoop安装包解压

tar -zxvf hadoop-1.2.1.tar.gz

1.2配置相关文件(hadoop1.2.1所有的配置文件都在hadoop1.2.1/conf目录下)

cd /home/suh/hadoop-1.2.1/conf

1.2.1修改hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_76

1.2.2修改core-site.xml

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://suh01:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/suh/hadoop-1.2.1/tmp</value>

</property>

</configuration>

1.2.3修改hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

</configuration>

1.2.4 修改mapred-site.xml

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>suh01:9001</value>

</property>

</configuration>

1.2.5修改masters 文件,添加如下内容:

suh01

1.2.6修改slaves 文件,添加如下内容:

suh02

suh03

1.3将配置好的hadoop拷贝到其他节点(为了拷贝更快速,建议把/home/hadoop-2.2.0/share 下的doc目录删掉:rm -rf doc)

scp -r /home/suh/hadoop-1.2.1/ [email protected]:/home/suh/

scp -r /home/suh/hadoop-1.2.1/ [email protected]:/home/suh/

======开始启动集群=======

2.1格式化HDFS

在hdfs的NameNode机器(suh01)上执行命令:

./bin/hadoop namenode -format

2.2启动HDFS(在suh01上执行,这里最好先配置好免登录,不然会提示输入密码,免登陆配置在下文有配置步骤)

./bin/start-all.sh

执行成功后进行相关检验:

(1)、suh01上多了NameNode、JobTracker、SecondaryNameNode进程;

(2)、接着分别进入到suh02、suh03机器,运行jps命令查看,发现它也启动好了DataNode、TaskTracker进程;

======hadoop集群启动成功后,进行测试======

3.1到此,hadoop1.2.1配置完毕,可以进行浏览器访问:

http://192.168.1.201:50070

3.2运行wordcount测试

hdfs上创建目录:

./bin/hadoop fs -mkdir /in

从linux上传测试数据文件到hdfs上:

./bin/hadoop fs -put /home/suh/test1 /in

执行测试例子:

./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /in/ /out

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-28 10:42:27

Hadoop1.2.1 完全分布式集群搭建实操笔记的相关文章

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事. 现将前期手里面的一个项目做一个大致的总结,与大家一起分享.交流.进步.项目现在正在线上运行,项目名--基于Hadoop的数据分析综合管理平台. 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-->热点话题发现-->报表"实时"展示,使用到的技术也是当今互联网公司常用的技术:Hadoop.Mahout.HBase.Spring Data Had

Hadoop 分布式集群搭建 &amp; 配置

一. 安装Java Java下载 官网下载合适的jdk,本人使用的是jdk-7u79-linux-x64.tar.gz,接下来就以该版本的jdk为例,进行Java环境变量配置 创建Java目录 在/usr/local目录下创建java目录,用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量 编辑profile文件 cd /etc vim profi

分布式实时日志系统(四) 环境搭建之centos 6.4下hbase 1.0.1 分布式集群搭建

一.hbase简介 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务.因此,它可以容错地存储海量稀疏的数据.HBase在列上实现了BigTable论文提到的压缩算法.内存操作和布隆过滤器.HBase的表能够作为MapReduce任务的输入和输出,可以通过Java API来存取数据,也可以

Storm分布式集群搭建

Storm分布式集群搭建 1.解压Storm压缩文件 [[email protected] software]# tar -zxf apache-storm-0.10.0.tar.gz -C /opt/modules [[email protected] software]# cd /opt/modules [[email protected] modules]# mv apache-storm-0.10.0 storm-0.10.0 2.配置Storm的配置文件 部署依赖环境 Java 6+

kafka系列二:多节点分布式集群搭建

上一篇分享了单节点伪分布式集群搭建方法,本篇来分享一下多节点分布式集群搭建方法.多节点分布式集群结构如下图所示: 为了方便查阅,本篇将和上一篇一样从零开始一步一步进行集群搭建. 一.安装Jdk 具体安装步骤可参考 linux安装jdk. 二.安装与配置zookeeper 下载地址:https://www-us.apache.org/dist/zookeeper/stable/ 下载二进制压缩包 zookeeper-3.4.14.tar.gz,然后上传到linux服务器指定目录下,本次上传目录为 

Hadoop伪分布式集群搭建总结

Hadoop伪分布式集群搭建总结 一.所需软件VMware15!CentOS6.5JDK1.8Hadoop2.7.3二.安装注意:对文件进行编辑:输入a,表示对该文件进行编辑,最后保存该文件,操作为:点击键盘上的Esc按钮,然后输入英文的:字符,再输入wq,点击回车,完成文件的保存.1.关闭防火墙和禁用SELINUX(1).永久关闭防火墙,重启Linux系统(2) .禁用SELINUX:修改文件参数 重启Linux使其生效(3).检查防火墙是否运行,显示下图即为关闭2.配置hostname与IP

Hadoop全分布式集群搭建(详细)

一.准备物理集群.1.物理集群搭建方式.采用搭建3台虚拟机的方式来部署3个节点的物理集群.2.虚拟机准备.准备一个已近建好的虚拟机进行克隆.(建议为没进行过任何操作的)在要选择克隆的虚拟机上右击鼠标,管理,克隆.在弹出对话框中进行以下操作.(1).下一步.(2).选择虚拟机中的当前状态,下一步. (3).选择创建完整克隆,下一步.(4).输入虚拟机名称,下一步.(5).克隆完成.(6).按照上述步骤再创建一个虚拟机名称为slave02的.3.虚拟机网络配置.由于slave01和slave02虚拟

MinIO 分布式集群搭建

MinIO 分布式集群搭建 分布式 Minio 可以让你将多块硬盘(甚至在不同的机器上)组成一个对象存储服务.由于硬盘分布在不同的节点上,分布式 Minio 避免了单点故障. Minio 分布式模式可以搭建一个高可用的对象存储服务,你可以使用这些存储设备,而不用考虑其真实物理位置. (1)数据保护 分布式 Minio 采用纠删码(erasure code)来防范多个节点宕机和位衰减(bit rot). 分布式 Minio 至少需要 4 个节点,使用分布式 Minio 就自动引入了纠删码功能. 纠

阿里云ECS服务器部署HADOOP集群(三):ZooKeeper 完全分布式集群搭建

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里云ECS服务器:master, slave1, slave2 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色