Hadoop 系列(二)安装配置

Hadoop 系列(二)安装配置

Hadoop 官网:http://hadoop.apache.or

一、Hadoop 安装

1.1 Hadoop 依赖的组件

  1. JDK :从 Oracle 官网下载,设置环境变量(JAVA_HOME、PATH 和 CLASSPATH)。
  2. SSH(安全外壳标议) :推荐安装 Openssh。

    Hadoop 需要通过 SSH 来启动 Slave 列表中各台主机的守护进程,因此 SSH 也是必须安装的,即使是安装伪分布式版本(因为 Hadoop 并没有区分开集群式和伪分布式)。对于伪分布式, Hadoop 会采用与集群相同的处理方式,即按次序启动文件 conf/slaves 中记载的主机上的进程;只不过在伪分布式中 Salve 为 localhost(即为自身),所以对于伪分布式 Hadoop,SSH 一样是必需的。

1.2 Hadoop 安装

(1) 创建 hadoop 用户

groupadd hadoop                             # 创建用户组
useradd -g hadoop -m -s /bin/bash hadoop    # 创建用户
passwd hadoop                               # 设置 hadoop 密码为 hadoop

为 hadoop 用户增加管理员权限:

vim /etc/sudoers

## Allow root to run any commands anywhere
root    ALL=(ALL)       ALL
hadoop  ALL=(ALL)       ALL

(2) 安装并配置 SSH 无密码登陆

CentOS 默认已安装了 SSH client、SSH server,打开终端执行如下命令进行检验

rpm -qa | grep ssh

如果返回的结果如下图所示,包含了 SSH client 跟 SSH server,则不需要再安装

若需要安装,则可以通过 yum 进行安装:

yum -y install openssh-clients openssh-server

接着执行如下命令测试一下 SSH 是否可用:

ssh localhost

此时会有如下提示(SSH 首次登陆提示),输入 yes 。然后按提示输入密码,这样就登陆到本机了。

[[email protected] home]# ssh localhost
The authenticity of host ‘localhost (::1)‘ can‘t be established.
ECDSA key fingerprint is bd:66:a8:94:98:d5:0b:f3:bc:e9:5c:41:4c:ca:b3:d4.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added ‘localhost‘ (ECDSA) to the list of known hosts.
[email protected]‘s password:
Last login: Fri Apr 20 07:07:31 2018 from 192.168.2.1

但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。

首先输入 exit 退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
rm ./id_rsa*                   # 删除之前生成的公匙(如果有)
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat id_rsa.pub >> authorized_keys  # 加入授权
chmod 600 ./authorized_keys    # 修改文件权限

此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了。

(3) Hadoop 安装

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz
tar -zxvf hadoop-3.1.0.tar.gz
sudo mv ./hadoop-3.1.0/ ./hadoop        # 将文件夹名改为 hadoop
sudo chown -R hadoop:hadoop ./hadoop    # 修改文件权限

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息

/usr/local/hadoop/bin/hadoop version

[[email protected] ~]$ hadoop version
Hadoop 3.1.0
Source code repository https://github.com/apache/hadoop -r 16b70619a24cdcf5d3b0fcf4b58ca77238ccbe6d
Compiled by centos on 2018-03-30T00:00Z
Compiled with protoc 2.5.0
From source with checksum 14182d20c972b3e2105580a1ad6990
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.0.jar

(4) 环境变量

vim /etc/profile.d/start.sh

# hadoop
HADOOP_HOME=/home/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

二、Hadoop 集群配置

(1) 网络配置

配置主机名:

vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=master

配置 IP/主机名 的映射关系

vim /etc/hosts

192.168.2.101 master
192.168.2.101 slave1

修改完成后需要重启一下,重启后在终端中才会看到机器名的变化。

配置好后需要在各个节点上执行如下命令,测试是否相互 ping 得通,如果 ping 不通,后面就无法顺利配置成功

ping master -c 3   # 只ping 3次,否则要按 Ctrl+c 中断
ping slave1 -c 3

(2) SSH 无密码登陆节点配置

这个操作是要让 master 节点可以无密码 SSH 登陆到各个 slave 节点上。

首先生成 master 节点的公匙,在 master 节点的终端中执行(因为改过主机名,所以还需要删掉原有的再重新生成一次)

cd ~/.ssh               # 如果没有该目录,先执行一次ssh localhost
rm ./id_rsa*            # 删除之前生成的公匙(如果有)
ssh-keygen -t rsa       # 一直按回车就可以

让 master 节点需能无密码 SSH 本机,在 master 节点上执行:

cat ./id_rsa.pub >> ./authorized_keys

完成后可执行 ssh master 验证一下(可能需要输入 yes,成功后执行 exit 返回原来的终端)。接着在 master 节点将上公匙传输到 slave1 节点:

scp ~/.ssh/id_rsa.pub [email protected]:/home/hadoop/

scp 是 secure copy 的简写,用于在 Linux 下进行远程拷贝文件,类似于 cp 命令,不过 cp 只能在本机中拷贝。执行 scp 时会要求输入 slave1 上 hadoop 用户的密码(hadoop),输入完成后会提示传输完毕,如下图所示:

接着在 Slave1 节点上,将 ssh 公匙加入授权:

mkdir ~/.ssh       # 如果不存在该文件夹需先创建,若已存在则忽略
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub    # 用完就可以删掉了

如果有其他 slave 节点,也要执行将 master 公匙传输到 slave 节点,在 slave 节点上加入授权这两步。

这样,在 master 节点上就可以无密码 SSH 到各个 slave 节点了,可在 master 节点上执行如下命令进行检验:

ssh slave1

(3) 配置集群/分布式环境配置

  1. 配置 conf/core-site.xml

    <configuration>
        <!-- 配置默认的文件系统,地址最好使用主机名而不是IP -->
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9090</value>
        </property>
        <!-- Hadoop 运行时产生文件的存储目录 -->
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/usr/local/hadoop/data</value>
        </property>
    </configuration>
  2. 配置 conf/hdfs-site.xml
    <configuration>
        <!-- 配置 Hadoop 中 HDFS,默认为 3,单机版需要改为 1 -->
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
  3. 配置 conf/mapred-site.xml
    <configuration>
        <!-- 指定 mr 运行在 yarn 上 -->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
  4. 配置 conf/yarn-site.xml
    <configuration>
        <!-- 指定 yarn 的老大(ResourceManager)的地址 -->
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>localhost</value>
        </property>
        <!-- reduce 获取数据的方式 -->
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>

原文地址:https://www.cnblogs.com/binarylei/p/8889775.html

时间: 2024-11-10 00:12:02

Hadoop 系列(二)安装配置的相关文章

Hadoop集群安装配置文档

Hadoop集群安装配置文档 日期 内容 修订人 2015.6.3 文档初始化 易新             目录 1 文档概要... 5 1.1软件版本... 5 1.2机器配置... 5 2 虚拟机配置... 5 2.1新建虚拟机... 5 2.2虚拟网络配置... 8 3 CentOS安装及配置... 9 3.1系统安装... 9 3.2系统配置... 10 3.2.1防火墙配置... 10 3.2.2 SElinux配置... 10 3.2.3 IP配置... 11 3.2.4安装vim

(App Volumes系列二)配置要求和Manager安装

在前一篇博客,我们基本了解了App Volumes的基本概念以及使用场景,在这篇博客,将带读者了解一下App Volumes基本的配置和安装部分. 在开始配置和安装的介绍之前,我们需要先了解一下App Volumes的基本的组成部分. App Volumes主要是分为四个逻辑组件: App Volumes Manager:负责分配和配置的控制台,帮助App Volumes agent分配应用和 writable volumes的代理 App Volumes Agent :文件系统和注册表的虚拟层

hadoop系列二:HDFS文件系统的命令及JAVA客户端API

转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6391518.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的s

伪分布式安装Hadoop + zookeeper + hbase安装配置

一.  安装JDK,配置环境JAVA环境变量 exportJAVA_HOME=/home/jdk1.6.0_27 exportJRE_HOME=/home/jdk1.6.0_27/jre exportANT_HOME=/home/apache-ant-1.8.2 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH 二.  安装Hadoop-1.0.3 1.     下载hadoop文件,地址为:http://hadoop.apac

Hadoop完全分布式安装配置完整过程

一. 硬件.软件准备 1. 硬件设备 为了方便学习Hadoop,我采用了云服务器来配置Hadoop集群.集群使用三个节点,一个阿里云节点.一个腾讯云节点.一个华为云节点,其中阿里云和腾讯云都是通过使用学生优惠渠道购买了一年的云服务,华为云使用免费7天或15天的云服务器.我决定使用腾讯云节点作为Master节点,阿里云节点和华为云节点作为Slave节点.集群基本结构如下图: 云服务器配置信息如下: 集群网络环境: 分别在每台机器上创建了用户hadoop,并且全部禁用了防火墙. 2. 软件 由于Ha

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

摘自:http://www.powerxing.com/install-hadoop-cluster/ 本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或 CentOS安装Hadoop_单机/伪分布式配置. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行 Ha

Hadoop系列(二)hadoop2.2.0伪分布式安装

一.环境配置 安装虚拟机vmware,并在该虚拟机机中安装CentOS 6.4: 修改hostname(修改配置文件/etc/sysconfig/network中的HOSTNAME=hadoop),修改IP到主机名的映射(vi /etc/hosts ,添加 127.0.0.1   hadoop); 按照JDK,下载jdk1.7.0_60并解压到/soft目录中,然后在/etc/profile中添加  export JAVA_HOME=/soft/jdk1.7.0_60 和 export PATH

阿里云CentOS7系列二 -- 安装Tomcat7的方法

前面讲到了JDK在CentOS7 环境下的安装步骤.这次来分享安装Tomcat7的安装步骤: Tomcat7 安装包: http://yunpan.cn/cLtC5xCrPYVqw  访问密码 37dd  [apache-tomcat-7.0.33.tar.gz 安装包] 安装步骤如下: 1  创建存放目录: 我是通过xshell5 来操作文件上传的步骤,具体操作请参考我前面写的JDK安装步骤:http://www.cnblogs.com/yazoon/p/4980071.html 2  安装文

MongoDB(二)——安装配置了解

前边介绍了MongoDB的大概理论知识,这篇来对MongoDB进行一下安装使用,支持安装在windows和linux上,当然了更多情况下我们是安装在linux上,因为毕竟服务器用linux的还是主流,当然了对于不同的系统,MongoDB的安装使用等其实都基本相同的,所以不用太在意这个,我们学习在那个平台上都是可以的.好,下载MongoDB:http://www.mongodb.org/downloads,根据我们的需要进行安装. 1,解压安装:将下载好的MongoDB解压到想要安装的路径下即可,

公司nginx keepalived tomcat cxf 搭建高可用负载均衡实战系列1- keepalived安装配置

1,ip说明 vip 10.50.13.67 server1 10.50.13.68 server2 10.50.13.140 2,keepalived安装 keepalived通常与lvs或者nginx结合使用保证集群的高可用,keepalived的master会绑定一个vip用来对外服务并定期向backup发送消息,当backup接收不到消息时则会判定master已经挂掉,backup将升为master并且绑定vip继续对外提供服务,从而保证高可用.下面介绍keepalived的安装 安装依