hadoop 2.5.0 完全分布式搭建

完全分布式安装:
    1.集群规划
        a.服务分配
        组件             Linux.one             Linux.two                   Linux.three
        HDFS           NameNode           Sencondarynamenode             
                           DataNode            DataNode                  DataNode
        --------------------------------------------------------------------------
        YARN                                                             ResourceManager
                         NodeManager          NodeManager               NodeManager
        --------------------------------------------------------------------------
        MapReduce     JobHistoryServer

2.基本环境准备
        A.三台装有CenterOs的PC
        B.将修改成静态IP (如果是克隆的虚拟机需要修改Mac地址 否则三台虚拟机无法ping通)
            #vi /etc/sysconfig/network-script/ifcfg-eth0
        C.修改Hostname
            #vi /etc/sysconfig/network
        D.设置主机映射
            # vi /etc/hosts
        E.关闭防火墙
            # service iptables stop
            # chkconfig iptables off
        F.关闭安全子系统
            # vi /etc/sysconfig/selinux
        G.卸载Linux自带的Jdk (minimal安装是没有安装的 所以不用卸载)
             查看系统自带的jdk  rpm -qa | grep java
             # rpm -e --nodeps tzdata-java-2012j-1.el6.noarch
             # rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64
             # rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
        H.安装Jdk
            a.编辑 /etc/profile 文件 添加
                export JAVA_HOME=/opt/modules/jdk1.7.0_67
                export $PATH:$JAVA_HOME/bin
            b.重新加载配置
                source /etc/profile
            
    3.配置NTP服务
        *将Linux.one 作为整个集群的时间同步服务器
        A.检查NTP服务是否安装 (minimal安装是没有安装的)
            rpm -qa | grep ntp
        B.安装ntp服务
            yum -y install ntp
        C.修改NTP的配置文件  (修改Linux.one)
            # vi /etc/ntp.conf
            a.去掉下面这行下面的#,并把网段修改成自己的网段
                restrict 192.168.7.0 mask 255.255.255.0 nomodify notrap
            b.注释掉一下几行  (修改Linux.one)
                #server 0.centos.pool.ntp.org iburst
                #server 1.centos.pool.ntp.org iburst
                #server 2.centos.pool.ntp.org iburst
                #server 3.centos.pool.ntp.org iburst
            c.把下面前面两行的#号去掉,如果没有,需要手动去添加  (修改Linux.one)
                server 127.127.1.0      #local clock
                fudge 127.127.1.0  stratum 10
            d.启动ntp服务(默认是开启)Linux01  (修改Linux.one)
                # service ntpd start   
                # chkconfig ntpd on
            e.同步服务器的时间(Linux01)  (修改Linux.one)
                # ntpdate cn.pool.ntp.org     -->操作这一步时关闭ntp服务
                16 Feb 17:14:40 ntpdate[26564]: step time server 188.39.37.91 offset -12.669996 sec
            f.如果另外两台的ntp的进程开启,那么需要关闭
                # service ntpd stop
                # chkconfig ntpd off
            g.第2、3台向第一台同步时间
                # ntpdate hadoop.senior01
                16 Feb 17:43:27 ntpdate[2554]: adjust time server 192.168.7.9 offset -0.001412 sec
            h.制定周期性时间同步计划任务(第2、3台-Linux02 、Linux03)
                ## 每10分钟同步一次服务器时间
                */10 * * * * /usr/sbin/ntpdate hadoop.senior01
            d.若以上失败则三台全部执行以下命令(时间以当前时间为准)
                # date -s "19:05:56 2017/2/16"
    4.配置SSH免秘钥登陆
        A.检查Linux上是否安装openssh  (minimal安装是没有自带的openssh服务的)
            rpm -qa | grep openssh
        B.安装openssh
            #yum -y install openssh-clients
        C.生成秘钥 (注意生成秘钥的用户)
            ssh-keygen
        D.将秘钥发送给其他服务器 (每台服务器都要执行此操作已确保三台服务器能够随意切换)
            ssh-copy-id hadoop.two
        E.测试免秘钥登陆是否成功 (互相登陆是否成功)
            ssh hadoop.one
        F.分发完成会在用户主目录下的.ssh目录生成以下文件:
            authorized_keys  id_rsa  id_rsa.pub  known_hosts
            如果配置错误可以先删除.ssh目录,重新做一遍
    
    5.安装Hadoop
        A.从hadoop.apache.org 官网下载 hadoop 使用FileZilla上传到服务器进行解压
            $tar -zxf hadoop.tar.gz
        B.配置hadoop的java环境支持, ${HADOOP_HOME}/etc/hadoop目录下
            hadoop-env.sh
            mapred-env.sh
            yarn-env.sh
            在这3个文件中都配置
            export JAVA_HOME=/opt/modules/jdk1.7.0_67

C. 修改配置文件
            ====core-site.xml====
            <!--指定第一台做namenode-->
            <property>
                 <name>fs.defaultFS</name>
                 <value>hdfs://hadoop.one:8020</value>
            </property>
    
            <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/modules/hadoop-2.5.0/data</value>
            </property>

=========hdfs-site.xml=====
            <!-- 分布式副本数设置为3 -->
            <property>
                <name>dfs.replication</name>
                <value>3</value>
            </property>
            <!-- secondarynamenode主机名 -->
            <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop.two:50090</value>
            </property>
            <!-- namenode的web访问主机名:端口号 -->
            <property>
                <name>dfs.namenode.http-address</name>
                <value>hadoop.one:50070</value>
            </property>
            <!-- 关闭权限检查用户或用户组 -->
            <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
            </property>

============yarn-site.xml=======
            <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop.three</value>
            </property>
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
            <property>
                <name>yarn.log-aggregation-enable</name>
                <value>true</value>
            </property>
            <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>86400</value>
            </property>

=========================mapred-site.xml============
            $ cp mapred-site.xml.template mapred-site.xml

<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
            <property>
                <name>mapreduce.jobhistory.address</name>
                <value>hadoop.senior01:10020</value>
            </property>
            <property>
                 <name>mapreduce.jobhistory.webapp.address</name>
                 <value>hadoop.senior01:19888</value>
            </property>
        D.将配置好的文件夹发送给其他服务器
            scp /opt/modules/app/hadoop-2.5.0  hadoop.two:/opt/modules/app/   
        E.格式化namenode
            /opt/modules/app/hadoop/bin/hdfs namenode -format
        F.启动服务
            在配置了namenode的服务器上启动namenode服务
            /opt/modules/app/hadoop-2.5.0/sbin/start-dfs.sh
            在配置了ResourceManager的服务器上启动ResourceManager
            /opt/modules/app/hadoop-2.5.0/sbin/start-yarn.sh

时间: 2024-12-27 21:46:25

hadoop 2.5.0 完全分布式搭建的相关文章

hadoop:hadoop2.2.0伪分布式搭建

1.准备Linux环境     1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.68.0 子网掩码:255.255.255.0 -> apply -> ok          回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 ->

Ubuntu 12.04下Hadoop 2.2.0 集群搭建(原创)

现在大家可以跟我一起来实现Ubuntu 12.04下Hadoop 2.2.0 集群搭建,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机,增加更多的slave只需重复slave部分的内容即可. 系统版本: master:Ubuntu 12.04 slave:Ubuntu 12.04 hadoop:hadoop 2.2.0 安装ssh服务:sudo apt-get install ssh 有时也要更新一下vim:sudo apt-ge

hadoop 3.0.0 alpha1 分布式搭建

一.节点参数 namenode master 192.168.56.101 datanode node0 192.168.56.102 二.配置主机名 192.168.56.101 master 192.168.56.102 node0 三.在master上,下载hadoop 3.0.0并解压 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz cp  

hadoop2.2.0伪分布式搭建

一.准备linux环境 1.更改VMware适配器设置 由于是在单机环境下进行学习的,因此选择适配器模式是host-only模式,如果想要联网,可以选择桥接模式,配置的方式差不多. 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.85.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络

Hadoop2.2.0伪分布式搭建简述

简述了自己搭建Hadoop伪分布式的过程,方便以后查看参考. 环境:Vmware10+RedHat6.3+hadoop2.2.0+JDK1.7 Hadoop模式: 本地模式:只能其一个reduce和一个map,用于调试 伪分布式模式:通过一台机器模拟分布式,在学习时使用.验证逻辑是否正确 集群模式:工作的模式,有几百上千台机器. linux环境配 关闭防火墙 若是对外网提供的服务是绝对不能关闭防火墙的.而Hadoop一般是公司内部使用,有多台节点,且之间需要通信,此时若防火前将通信的端口屏蔽则无

hadoop2.2.0伪分布式搭建3--安装Hadoop

3.1上传hadoop安装包 3.2解压hadoop安装包 mkdir /cloud #解压到/cloud/目录下 tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/ 3.3修改配置文件(5个) 第一个:hadoop-env.sh #在27行修改 export JAVA_HOME=/usr/java/jdk1.7.0_55 第二个:core-site.xml <configuration> <!-- 指定HDFS老大(namenode)的通信地址 -->

Hadoop 2.6.0 完全分布式平台搭建

软件环境: 网络配置: master1            192.168.11.24 worker1             192.168.11.25

Hadoop简单入门之伪分布式搭建

前面两章主要讲解了完全分布式的搭建,这章主要讲解服务器单机完成伪分布的搭建,介绍Hadoop配置,启动,以及简单测试.我的机器:阿里云服务器,64位,Java64,Hadoop2.4.1(64) ? 所有软件下载百度云 密码:uup8 讲在开头:对于笔者的完全分布式环境请见该文:Hadoop完全分布式安装 写文章不易,欢迎大家采我的文章,以及给出有用的评论,当然大家也可以关注一下我的github:多谢: 1,Hadoop简单介绍: Apache Hadoop是一款支持数据密集型分布式应用,并以A

VMware 虚拟机安装 hadoop 2.6.0 完全分布式集群

最近连着搭了两次hadoop的集群,搭建的时候也碰到了一些问题,因为之前对linux 不熟悉,经常遇到各种问题和命令忘记写,幸亏有度娘谷哥,这里做一个记录 下次使用的时候用的上 计算机的配置 计算机: G3440 3.3G 双核 8G内存 虚拟机: vmware workstation 12 pro 系统: centos6.5 节点: 192.168.133.33 master.hadoop 192.168.1.151 slave1.hadoop 192.168.1.151 slave2.had