Hadoop集群搭建

关于SSH配置

在配置SSH的时候,要明白ssh_config主要负责ssh的客户端,sshd_config主要是负责服务器端配置;但是两者配置文件内容是一样的,处理方式是对于没有用的参数注释掉;其中有一项是PermitRootLogin,其实这一项是服务器端需要进行配置的,但我在ssh_config中打开了,导致了异常:Bad configuration option: PermitRootLogin;注释掉之后,问题解决。

另外,可以通过“man 5 sshd_config”来查看详细配置内容

在通过ssh-copy-id进行复制公钥的时候,一定要注意是在hadoop用户场景下来操作的;如果是root则无法成功免密处理

JAVA_HOME配置

在/etc/hadoop/hadoop-env.sh中要显式填写JAVA_HOME,默认是${JAVA_HOME},需要将其修改为全路径,否则别的dataNode在链接到此台机器的时候将会报错:JAVA_HOME is not set and could not be found

异常处理

Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.

需要在core-site.xml中配置fs.defaultFS;之前在DataNode的core-site.xml中的fs.defaultFS节点配置的信息是localhost:9000,但是其实应该配置NameNode的节点信息;于是将节点信息替换为nameNode的IP,但是有报错:

Incompatible clusterIDs in /opt/workspace/hadoop/data: namenode clusterID = CID-076fbffa-0e9d-42a3-ad9b-39d93487ce11; datanode clusterID = CID-812c3ffa-bf6b-4bf5-9b9c-4947308ada78

这说明是集群信息不对,说明改正之后的集群信息和已经记录在案的集群信息不匹配导致了异常;后来怀疑集群信息应该是以文件形式存放在 /opt/workspace/hadoop/data路径下,所以直接把data下面的current文件夹(只有这一个文件)删掉;重启启动NameNode,DataNode成功被启动;而且在http://maser.hadoop:50070也可以看到DataNode信息了(之前无法发现DataNode)

常见端口

NameNode网站端口是50070;DataNode端口是50075

YARN的默认程序端口:8033

ResourceManager的Web监听端口:8088

NodeManager的Web监听端口:8042

NodeManager的RPC端口:8040

配置

其中start-dfs.sh以及start-yarn.sh都是只在master的机器执行即可,只要各个节点的配置OK,就可以通过Master来控制下属的节点启动。

调整Hadoop的日志级别:export HADOOP_ROOT_LOGGER=INFO,console

在做MapReduce的时候,output文件夹是要让Hadoop去创建,不要手工创建;

在Hadoop官网的例子中

Hadoop的配置文件需要注意,我在调试YARN的程序的时候,就发现加载的都是Default的配置,这是因为new Configuration()都是加载默认的配置文件(在yarn包,common包下面都有自己的default.xml),如果想要加载定制的配置文件,如果是在Eclipse中使用:

conf.addResource("yarn-site.xml");

即可,addResource函数中将会从CLASS_PATH路径下读取该文件,取出其中的key-value做“覆盖”操作;

如果是想要使用系统中已有的文件:

Path p = new Path("opt/workspace/hadoop/hadoop2.8.0/etc/hadoop/yarn-site.xml");
conf.addResource(p);
时间: 2024-12-27 14:58:23

Hadoop集群搭建的相关文章

三节点Hadoop集群搭建

1. 基础环境搭建 新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode.slavenode1和slavenode2.该过程参考上一篇博文CentOS6.5安装配置详解 2.Hadoop集群搭建(以下操作中三个节点相同的地方就只给出主节点的截图,不同的才给出所有节点的截图)   2.1 系统时间同步 使用date命令查看当前系统时间 系统时间同步 [[email protected] ~]# cd /usr/share/zoneinfo/ [[email protec

hadoop 集群搭建-suse linux 11

好久都没写了啊.感觉自己都不像是一个搞技术都了.来个存货吧! hadoop 集群搭建 3台机器 suse 系统 规划 IP 主机名 hostname hadoop角色10.96.91.93 namenode93 NameNode.SecondaryNameNode .ResourceManage. DataNode .NodeManager10.96.91.129 datanode129 DataNode NodeManager10.96.91.130 datanode130 DataNode

Hadoop集群搭建步骤

实验性操作是在虚拟机里进行的,除了搭建hadoop本身的操作之外,遇到的其它问题总结如下: 1. 虚拟机挂载windows磁盘: 添加硬件,要保证该硬件此时没有被读写访问等,因为挂载后,该磁盘在宿主机上就不能用了.启动虚拟机linux,执行 fdisk –l 查看windows磁盘的分区,如/dev/sdb2,然后执行挂载命令: mount /dev/sdb2 /mnt/win/ 然后就可以到/mnt/win目录下访问磁盘上的内容了 2. hadoop启动时如果报错,提示JAVA_HOME is

Hadoop集群搭建文档

  环境: Win7系统装虚拟机虚拟机VMware-workstation-full-9.0.0-812388.exe Linux系统Ubuntu12.0.4 JDK                jdk-7u17-linux-i586.tar.gz 搭建步骤: 首先在win系统装虚拟机,执行VMware-workstation-full-9.0.0-812388.exe: 其次需要在虚拟机上装Ubuntu12.0.4: 安装完成Ubuntu12.0.4之后,需要安装JDK,(注意:安装JDK需

Hadoop集群搭建配置文件汇总

核心内容: 1.Hadoop1.1.2伪分布(或集群)搭建核心配置文件 2.Hadoop2.4.1伪分布(或集群无HA)搭建核心配置文件 3.Hadoop2.4.1 + HA 集群搭建核心配置文件 1.Hadoop1.1.2伪分布(或集群)搭建核心配置文件 hadoop1.1.2伪分布(集群)搭建 前期准备(略) 安装hadoop1.1.2 1.解压缩 2.修改配置文件 ----------------------core-site.xml--------------------- <prope

Hadoop集群搭建详细步骤(2.6.0)

本文记录在3台物理机上搭建Hadoop 2.6.0的详细步骤及碰到的问题解决.默认使用root账号操作,实际中建议使用专用的hadoop用户账号. 1. 环境 机器: 物理机3台,ip分别为192.168.1.130.192.168.1.132.192.168.1.134 操作系统: CentOS 6.6 Java: 1.7 Hadoop: 2.6.0 请确保JDK已安装,使用java -version确认. hosts配置 配置主机hosts文件: vim /etc/hosts 192.168

Hadoop学习之路(四)Hadoop集群搭建和简单应用

概念了解 主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构. 主从结构分类: 1.一主多从 2.多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1.主节点 从节点 2.master slave 3.管理者 工作者 4.leader follower Hadoop集群中各个角色的名称: 服务 主节点 从节点 HDFS NameNode DataNode YARN Resource

Hadoop学习之路(五)Hadoop集群搭建模式和各模式问题

分布式集群的通用问题 当前的HDFS和YARN都是一主多从的分布式架构,主从节点---管理者和工作者 问题:如果主节点或是管理者宕机了.会出现什么问题? 群龙无首,整个集群不可用.所以在一主多从的架构中都会有一个通用的问题: 当集群中的主节点宕机之后,整个集群不可用.这个现象叫做:单点故障.SPOF 单点故障讲述的概念有两点 1.如果说宕机的那个节点是从节点,那么整个集群能够继续运行,并且对外提供正常的服务. 2.如果说宕机的那个节点是主节点,那么整个集群就处于宕机状态. 通用的解决方案:高可用

大数据-Hadoop生态(4)-Hadoop集群搭建

准备工作 开启全部三台虚拟机,确保hadoop100的机器已经配置完成 脚本 操作hadoop100 新建一个xsync的脚本文件,将下面的脚本复制进去 vim xsync #这个脚本使用的是rsync命令而不是scp命令,是同步而非覆盖文件,所以仅仅会同步过去修改的文件.但是rsync并不是一个原生的Linux命令,需要手动安装.如果没有,请自行安装 #!/bin/bash #1 获取输入参数个数,如果没有参数,直接退出 pcount=$# if ((pcount==0)); then ech

hadoop集群搭建前的准备

1. 修改主机名: [[email protected] home]# sudo vi /etc/sysconfig/network 修改主机名: 2. 设置系统默认启动级别: [[email protected] home]#vi /etc/inittab改默认启动级别,3 是多用户模式,并且不启动图形界面 3. 配置 hadoop 用户 sudoer 权限: 这里使用普通用户hadoop,对Linux进行操作:创建hadoop用户:[[email protected] home]# user