Hadoop学习笔记(一)—hadoop2.5.2+zookeeper3.6.4+centosx64+vmware11环境搭建

前言

大数据实在是太热,一直对新技术充满着向往,其实hadoop也不是新技术,已经好几年了。打算学习,一下hadoop整个生态圈的内容。这篇文章介绍一下环境搭建,自己搭环境摸索了好几天连着,终于搭建完成,记录一下。并share一下,如果哪天你也需要,大家一起共勉。在这希望我能认认真真写完每一篇博客,坚持一直写。

——chaosju

环境+工具准备

大数据实在是太热,一直对新技术充满着向往,其实hadoop也不是新技术,已经好几年了。打算学习,一下hadoop整个生态圈的内容。这篇文章介绍一 下环境搭建,自己搭环境摸索了好几天连着,终于搭建完成,记录一下。并share一下,如果哪天你也需要,大家一起共勉。在这希望我能认认真真写完每一篇 博客,坚持一直写。

1.vmare虚拟机

2.xshell or secureCRT

3.JDK1.6 或者 1.7 -------不建议1.8

4.centos的iso

5.安装ssh

6.hadoop2.5.2

download:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz

download:http://hadoop.apache.org/releases.html#19+November%2C+2014%3A+Release+2.5.2+available

7.zookeeper-3.4.6.tar

download:http://www.apache.org/dyn/closer.cgi/zookeeper/

注意:apache提供的hadoop-2.5.2的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.5.2就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统)。

编译教程:http://blog.csdn.net/ggz631047367/article/details/42460589

64位hadoop2.5.2下载地址:http://pan.baidu.com/s/1kTnIeLT

hadoop搭建环境准备步骤                                                                                                                            像虚拟机安装,xshell的安装使用,就不在这说了。直说一点,我搭建完全分布式,用到4台虚拟机,不要一台一台安装,用vwware的克隆功能,例如你的jdk已经搭建完成,就可以克隆了。

现在4台虚拟机已经安装好了假设。搭建环境真正的开始。

0.如果你其中3台虚拟机用的VMware克隆,需要保证ip能够自动获取,做以下修改。其中克隆的主机需要修改

克隆之后的操作系统需要重新分配MAC地址
    a、vi /etc/sysconfig/network-scripts/ifcfg-eth0   (网卡信息)
    将该文件中删除两行:UUID和物理地址
    b、删除rm -rf /etc/udev/rules.d/70-persistent-net.rules 文件
    c、重启  init 6 或reboot

修改上述操作完成,执行ifconfig能够看到etho的ip,和新的mac地址

ifconfig

1.修改Linux主机名 ,4台主机全部修改

vim /etc/sysconfig/network

修改每台主机的hostname,我的命名是node1、node2、 node3、node4


   2.修改IP(可选)改成固定ip,4台主机全部修改

    vi /etc/sysconfig/network-scripts/ifcfg-eth0
    #修改
    BOOTPROTO=static
    IPADDR=192.168.239.6   #(该IP即为设置的固态IP)
    NETMASK=255.255.255.0
    GATEWAY=192.168.239.2

3.修改主机名和IP的映射关系,4台主机全部修改
      vim /etc/hosts


    验证:分别在每台主机上ping 别的主机的hostname,不是ip验证配置正确

4.关闭防火墙

关闭防火墙,重启还是自动重启service iptables stop永久关闭,建议永久关闭
chkconfig iptables off
查看防火墙关闭状态service iptables status 

5.ssh免登陆

 配置node1到node1-4的ssh免登陆
node1上执行
 ssh-keygen -t rsa
 scp ~/.ssh/id_rsa.pub node1:~/.ssh/
 scp ~/.ssh/id_rsa.pub node2:~/.ssh/
 scp ~/.ssh/id_rsa.pub node3:~/.ssh/
 scp ~/.ssh/id_rsa.pub node4:~/.ssh/
node1-node4都要执行
 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    

配置node2到node1的免登陆
ssh-copy-id -i node1

验证:ssh node*,第一次需要输入密码。之后就不需要了

6.安装JDK,配置环境变量等

这个我就不说了,自己百度吧

集群规划

说明:你对hadoop的架构有一定的了解,不了解也没事,先搭起来再看

1. namenode(NN) node1、node2

2. datanode(DN) node1、node2

3. zookeeper(ZK)node1、node2、node3

3. DFSZKFailoverController(ZKFC)node1、node2

3. JournalNode(JN)node2、node3、node4

3. ResourceManager(RM)node1

3. DataManager(DM)node2、node3、node4

安装部署zookeeper和hadoop                                                                                           一、zookeeper安装配置zookeeper集群                             
        1、node1上解压

 tar -zxvf zookeeper-3.4.6.tar.gz
 ln -sf /root/zookeeper-3.4.6  /home/zk

2、node1上修改配置

  node1上进行:
    cd /home/zk/conf/
    cp zoo_sample.cfg zoo.cfg
    vim zoo.cfg
   修改:dataDir=/opt/zookeeper
   在最后添加:
    server.1=node1:2888:3888
    server.2=node2:2888:3888
    server.3=node3:2888:3888
   然后创建一个tmp文件夹
    mkdir /opt/zookeeper
   再创建一个空文件
    touch /opt/zookeeper/myid
   最后向该文件写入ID
    echo 1 > /opt/zookeeper/myid

3、将配置好的zookeeper拷贝到node2、node3)

  将node1上zookeper的安装文件copy到node2和node3
      scp -r /home/zk/ node2:/root
      scp -r /home/zk/ node3:/root
      node2:
          ln -sf /root/zk  /home/zk
      node3:
          ln -sf /root/zk  /home/zk
   将node1上zookeper的配置文件copy到node2和node3
        scp -r /opt/zookeeper/ node2:/opt
        scp -r /opt/zookeeper/ node3:/opt
   注意:修改node2、node2对应/opt/zookeeper/myid内容
       node2:
            echo 2 > /opt/zookeeper/myid
       node3:
            echo 3> /opt/zookeeper/myid
时间: 2024-10-23 02:23:52

Hadoop学习笔记(一)—hadoop2.5.2+zookeeper3.6.4+centosx64+vmware11环境搭建的相关文章

Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H

Hadoop学习笔记-011-CentOS_6.5_64_HA高可用-Zookeeper3.4.5安装Kafka+消息监控KafkaOffsetMonitor

参考: http://www.cnblogs.com/smartloli/p/4538173.html http://blog.csdn.net/lsshlsw/article/details/47342821 虚拟机中共五个centos系统,每个系统有两个用户root和hadoop:cdh1,cdh2,cdh3,cdh4,cdh5 集群规划 安装kafka(cdh3机器) 第一步,解压已下载好的kafka安装包 #tar -zxvf kafka_2.9.2-0.8.2.2.tgz 解压后删除k

Hadoop学习笔记—21.Hadoop2的改进内容简介

Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: (1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是:HDFS Federation与HA: (2)MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resourc

Hadoop学习笔记(二)设置单节点集群

本文描述如何设置一个单一节点的 Hadoop 安装,以便您可以快速执行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 参考官方文档:Hadoop MapReduce Next Generation - Setting up a Single Node Cluster. Hadoop版本:Apache Hadoop 2.5.1 系统版本:CentOS 6.5,内核(uname -r):2.6.32-431.el6.x86_64 系统必备组件 支

hadoop学习笔记(二)

hadoop学习笔记(二) 我的个人博客站点地址:孙星的个人博客主页 后续的学习笔记:hadoop学习笔记 hadoop单节点的搭建 下载hadoop: wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz tar -zxvf hadoop-2.7.1.tar.gz 解压配置免密码登陆: //生成秘钥 ssh-keygen -t rsa //一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私

Hadoop学习笔记(两)设置单节点集群

本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoop MapReduce Next Generation - Setting up a Single Node Cluster. Hadoop版本号:Apache Hadoop 2.5.1 系统版本号:CentOS 6.5.内核(uname -r):2.6.32-431.el6.x86_64 系统必备

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!

Hadoop学习笔记(7) ——高级编程

Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2.映射(map):根据输入的<key, value>进生处理, 3.合并(combiner):合并中间相两同的key值. 4.分区(Partition):将<key, value>分成N分,分别送到下一环节. 5.化简(Reduce):将中间结

Hadoop学习笔记(8) ——实战 做个倒排索引

Hadoop学习笔记(8) ——实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输