Hadoop自学笔记（五）配置分布式Hadoop环境

上一课讲了怎样在一台机器上建立Hadoop环境。我们仅仅配置了一个NHName Node, 这个Name Node里面包括了我们全部Hadoop的东西。包括Name Node, Secondary Name Node, Job Tracker, Task Tracker，这一课解说怎样把上述配置放到不同机器上。从而构建一个分布式的hadoop配置。

1. hadoop分布式安装概览

a) 2-10个nodes:Name Node, Job Tracker, Secondary Name Node都能够放在一台机器上，全部的Data Node和Task Tracker放在其它机器上

b) 10-40个nodes: 能够把Secondary Name Node分开来

c) 100+ nodes: 全部的Node和Trackers都分开放。而且加入rack awareness支持，同一时候须要各类优化设置。

本课的流程：

配置好ssh到全部的机器上。使其能够免输入password连接（如同上一课所述）

配置好masters和slaves

配置好全部的*-site文件

学习使用命令来启动。控制和关闭Hadoop（经常使用脚本说明例如以下图）。

2. 配置Hadoop到2-10个节点上

这个图非常帅。我们在HN Client机器上来控制全部的Hadoop机器。每一个机器给一个窗体（下图已经通过ssh链接到每台机器了，链接方式见上一课）。

第一步：取消全部机器上面的sshpassword訪问

ssh-copy-id -i $HOME/.ssh/id-rsa.pub [email protected]

把这个文件复制到全部的HNData和Secondary Name Node上面。这样就能够无password登陆了。

第二步：配置Master和Slaves

全部的配置文件都在/usr/local/hadoop/conf目录以下

配置好masters来指向Secondary Name Node，然后配置slaves文件指向全部的HNData Node

Master文件默认的是localhost

用不论什么编辑器打开masters文件。删除localhost, 输入HN2ndName (就是你Secondary Name Node 的名称)

相同。编辑slaves文件，把全部的HNData Node名称输入

第三步：配置全部的Data Node，让它们指向Name Node。全部的Task Tracker指向Job Tracker

通过core-site.xml配置前者，通过mapred-site.xml配置后者

在HNData Node配置core-site.xml例如以下（由于我们是直接把上次的机器配置拷贝进来的。所以能够发现这个文件已经配置过了，例如以下：）

配置mapred-site.xml例如以下：

上面的配置应该已经是这样了，只是不妨检查好每个Data Node中的配置是不是这样

第四步：又一次格式化Name Node

hadoop namenode -format

第五步：配置完毕了，能够试着看看是否能启动

start-dfs.sh 这个命令启动全部的Name Nodes和Data Nodes，能够使用jps命令来查看是否成功启动了。

start-mapred.sh 这个命令启动全部的Job Trackers和Task Trackers。相同使用jps来检測是否启动了，假设没有成功，能够去看看logs文件

3. 启动和关闭Hadoop各部分的命令

假设要删除一个node。能够建立一个excludes文件，在里面输入你不想要的node名称，比方HNData3.

然后配置HN Name Node中core-site.xml例如以下（在最后加入一个property）

相同能够建立一个includes文件来指定包括哪些节点

配置完毕后，启用配置：

hadoop dfsadmin -refreshNodes

我们能够在hnname:50070上面看到被排除的Node

执行rebalancer命令

start-balancer.sh

关闭Job Tracker。 Task Tracker：

stop-mapred.sh

关闭Name Node, Data Nodes:

stop-dfs.sh

假设要同一时候启动HNName Node, Data Node, Job Tracker, Task Tracker,则直接输入：

start-all.sh

时间： 2025-01-13 13:33:04

Hadoop自学笔记（五）配置分布式Hadoop环境的相关文章

Hadoop学习笔记三：分布式hadoop部署

前语:如果看官是个比较喜欢使用现成软件的,比较推荐使用quickhadoop,这个使用参照官方文档即可,是比较傻瓜式的,这里不做介绍.本文主要是针对自己部署分布式hadoop. 1.修改机器名 [[email protected] root]# vi /etc/sysconfig/network 将HOSTNAME=*** 一栏改成适当的名称,笔者两台机器采用HOSTNAME=Hadoop00,HOSTNAME=Hadoop01这种方式. 2.修改IP,网关,掩码等 vim /etc/sysco

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!

Hadoop学习笔记（一）——Hadoop体系结构

HDFS和MapReduce是Hadoop的两大核心.整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持. 一.HDFS体系结构 HDFS采用了主从(Master/Slave)结构模型.一个HDFS集群是由一个NameNode和若干个DataNode组成的.其中,NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作:集群中的DataNode管理存储的数据.HDFS典型的部署是在一个专门的机器

Hadoop学习笔记0004——eclipse安装hadoop插件

Hadoop学习笔记0004--eclipse安装hadoop插件 1.下载hadoop-1.2.1.tar.gz,解压到win7下hadoop-1.2.1: 2.如果hadoop-1.2.1中没有hadoop-eclipse-plugin-1.2.1.jar包,就到网上下载下来: 3.关闭eclipse,然后将hadoop-eclipse-plugin-1.2.1.jar拷贝到eclipse安装目录下的eclipse-x.x\plugins文件夹下,重启eclipse 4.在eclipse中顶

Hadoop自学笔记（一）常见Hadoop相关项目一览

本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述自学笔记,难免有各类错误纰漏.请看者谨慎. Hadoop的使用还有大数据时代什么的就不说了.Hadoop不是一个单独的工具,而是一整个生态系统.包括一系列工具.所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的. 1. Hadoop Core a) HDFS Hadoop分布式文件系统,Hadoo

Hadoop小兵笔记【二】Hadoop分布式集群扩展实战经验

一.集群原先配置: 主机名sparkMaster,Ubuntu12.04-32 ,用户名Root , 内存4g (只用于任务调度和分配,不做计算节点) 从机名sparkSlave1,Ubuntu12.04-32 ,用户名Root , 内存4g (计算节点) 从机名sparkSlave2,Ubuntu12.04-32 ,用户名Root , 内存1.7g (计算节点) 二.扩展原因:计算数据量增大,原先的两个工作节点已不不能满足实时性的需求,由于实验室计算资源有限,故将原先的调度节点也增

Hadoop 学习笔记五 ---Hadoop系统通信协议介绍

本文约定: DN: DataNode TT: TaskTracker NN: NameNode SNN: Secondry NameNode JT: JobTracker 本文介绍Hadoop各节点和Client之间通信协议. Hadoop的通信是建立在RPC的基础上,关于RPC的详解介绍大家可以参照 "hadoop rpc机制 && 将avro引入hadoop rpc机制初探" Hadoop中节点之间的通信是比较复杂的一个网络,若可以把它们之间的通信网络了解清楚,那么

Hadoop学习笔记（2）hadoop框架解析

Hadoop是适合大数据的分布式存储与计算平台 HDFS的架构:主从式结构主节点只有一个NameNode,从节点可以有很多个DataNode. NameNode负责: (1)接收用户操作请求 (2)维护文件系统的目录结构 (3)管理文件与block之间关系,block与DataNode之间联系 DataNode负责: (1)存储文件 (2)文件被分成block存储在磁盘上 (3)为保证数据安全,文件会有多个副本 NameNode和DataNode是指不同的独立的物理机器. 类比:积木拼图,Na

[hadoop读书笔记] 第四章 Hadoop I/O操作

P92 压缩 P102 序列化序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程用于进程之间的通信或者数据的永久存储反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的. RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化成原始信息. Avro:一个独立于编程语言,并基于 IDL的序列化框架,非常适合用于Hadoop的大规模数据处理