Hadoop集群环境配置

  这次配置的环境是Hadoop1.2.1版本,Hadoop在13年推出了Hadoop2.0版本,该版本在Hadoop1.0版本的基础上作了较大的改动,提升了Hadoop集群任务调度、资源分配以及故障处理方面的效率。

  Hadoop2.0在Hadoop1.0的基础上,首先对HDFS作了改动,在Hadoop1.0中,HDFS系统中NameNode节点只允许有1个,当然,在GFS的论文中,集群中影藏着一个ShadowNode,作为NameNode的备份,应该就是Hadoop1.0中配置的SecondaryNameNode吧,在Hadoop2.0中,HDFS系统中可以存在多个NameNode,这些NameNode之间相互独立,DataNode向所有的NameNode注册消息,这样,加强了系统的水平扩展能力以及系统的可用性。

  Hadoop2.0还有的一个改动就是对MapReduce运行框架的一个变动,在Hadoop1.0中,JobClient向Master服务器提交任务后,任务由JobTracker分为不同的Task,提交给Slaver服务器进行计算,Master服务器的任务包括任务的分配、资源的分配、Task执行情况的追踪, 以及Task执行失败后的处理,所有这些东西都集中在Master服务器上,由此带来了单点失效的风险以及加大了任务分配失败的概率,在Hadoop2.0中,通过对资源管理以及任务管理的改进,Master节点只进行资源的分配 以及工作状态的监控,其他的比如工作的划分,任务状态的检测等都交给Slaver节点,这个也就是最新的Yarn框架,其系统结构如下图所示:

  从中可以看出,Master服务器只负责运行ResourceManager,负责资源的管理,具体的任务由ApplicationManager负责管理,这其中包括任务的分配、状态跟踪以及错误处理。

  Hadoop环境的搭建主要是配置 一下几个文件:core-site.xml,hdfs-site.xml,mapred-site.xml以及yarn-site.xml。

  core-site.xml里面主要配置集群的任务提交地址。

  hdfs-site.xml里面填写关于hdfs系统相关的配置,包括目录文件及数据文件的位置。

  mapred-site.xml:配置JobTracker的端口,map操作的中间结果的本地位置。

  yarn-site.xml:这是hadoop2中有的特殊的配置文件,是对yarn框架的配置,具体的配置信息见hadoop官网,但是不会填写。

  配置Hadoop1的环境还是挺简单的,但是Hadoop2的配置文件中的内容改变较大,配置了2.6但是不成功。

  利用Hadoop1的集群,作了一些性能方面的测试,Hadoop1的集群的环境是一台Master,2台Slaver,每台Slaver都是单核,2G内存的配置,测试的程序是Hadoop自带的WordCount用例。

  本地生成了134兆的文件,单个文件,通过字节写的单词统计程序,统计完一个文件,耗时17秒,在集群中,单个文件的耗时为1分44秒。从单个文件的结果看,Hadoop没有体现出他应该有的性能来,后来测试了10个这样的文件,本地用时3分34秒,集群第一次用时3分44秒,性能已经相当接近了,再考虑到集群两台Slaver的配置加起来也没有我一台笔记本的配置高,所以结果可以接受,在第一次Job执行完后,立即执行第二次,结果是2分50秒,这个结果赞了。。

时间: 2024-10-12 20:43:43

Hadoop集群环境配置的相关文章

Hadoop的学习前奏(二)——Hadoop集群的配置

前言: Hadoop集群的配置即全然分布式Hadoop配置. 笔者的环境: Linux:  CentOS 6.6(Final) x64 JDK:    java version "1.7.0_75" OpenJDK Runtime Environment (rhel-2.5.4.0.el6_6-x86_64 u75-b13) OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode) SSH:    OpenSSH_5.3p1, Ope

Hadoop集群安装配置文档

Hadoop集群安装配置文档 日期 内容 修订人 2015.6.3 文档初始化 易新             目录 1 文档概要... 5 1.1软件版本... 5 1.2机器配置... 5 2 虚拟机配置... 5 2.1新建虚拟机... 5 2.2虚拟网络配置... 8 3 CentOS安装及配置... 9 3.1系统安装... 9 3.2系统配置... 10 3.2.1防火墙配置... 10 3.2.2 SElinux配置... 10 3.2.3 IP配置... 11 3.2.4安装vim

大数据 -- Hadoop集群环境搭建

首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间. Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单

shell 脚本实战笔记(6)--集群环境配置检测

1). 背景: 集群部署的时候, 需要一致的配置和环境设置. 对于虚拟机集群, 可以借助镜像拷贝, 复制和还原集群机器. 对与物理机集群而言, 则不一样, 如果机器一多, 多人去操作和配置, 对于成熟精干的团队还好, 对于不熟悉环境的小团队, 由于水平的参差不齐, 往往会导致不一致的环境. 因此无论如何, 写脚本进行自动化的配置和环境校验总是最佳实践. 2). 假设应用场景:*) 系统环境: 安装CDH5, 集群规模为16台机器, 每台机器16CPU, 内存16G, 2块SATA盘共500G,

Hadoop全分布式集群环境配置

Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop实现了一个分布式系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS

ubuntu16.04搭建hadoop集群环境

1. 系统环境Oracle VM VirtualBoxUbuntu 16.04Hadoop 2.7.4Java 1.8.0_111 master:192.168.19.128slave1:192.168.19.129slave2:192.168.19.130 2. 部署步骤在虚拟机环境中安装三台Ubuntu 16.04虚拟机,在这三台虚拟机中配置一下基础配置2.1 基础配置1.安装 ssh和opensshsudo apt-get install sshsudo apt-get install r

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

摘自:http://www.powerxing.com/install-hadoop-cluster/ 本教程讲述如何配置 Hadoop 集群,默认读者已经掌握了 Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置 或 CentOS安装Hadoop_单机/伪分布式配置. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行 Ha

Linux下Hadoop集群环境的搭建

本文旨在提供最基本的,可以用于在生产环境进行Hadoop.HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用. 基础环境 JDK的安装与配置 现在直接到Oracle官网(http://www.oracle.com/)寻找JDK7的安装包不太容易,因为现在官方推荐JDK8.找了半天才找到JDK下载列表页的地址(http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html).因

SpringBoot系列教程之Redis集群环境配置

之前介绍的几篇redis的博文都是基于单机的redis基础上进行演示说明的,然而在实际的生产环境中,使用redis集群的可能性应该是大于单机版的redis的,那么集群的redis如何操作呢?它的配置和单机的有什么区别,又有什么需要注意的呢? 本篇将主要介绍SpringBoot项目整合redis集群,并针对这个过程中出现的问题进行说明,并给出相应的解决方案 I. 环境相关 首先需要安装redis集群环境,可以参考博文:redis-集群搭建手册 然后初始化springboot项目,对应的pom结构如