hadoop-2.3.0-cdh5.1.0完全分布式搭建(基于centos)

先参考:《hadoop-2.3.0-cdh5.1.0伪分布安装(基于centos)

http://blog.csdn.net/jameshadoop/article/details/39055493

注:本例使用root用户搭建

一、环境

操作系统:CentOS 6.5 64位操作系统

 注:Hadoop2.0以上采用的是jdk环境是1.7,Linux自带的jdk卸载掉,重新安装

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

软件版本:hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

下载地址:http://archive.cloudera.com/cdh5/cdh/5/

c1:192.168.58.11

c2:192.168.58.12

c3:192.168.58.13

二、安装JDK(略)见上面的参考文章

三、配置环境变量 (配置jdk和hadoop的环境变量)

四、系统配置

1关闭防火墙

chkconfig iptables off(永久性关闭)

配置主机名和hosts文件

2、SSH无密码验证配置

因为Hadoop运行过程需要远程管理Hadoop的守护进程,NameNode节点需要通过SSH(Secure Shell)链接各个DataNode节点,停止或启动他们的进程,所以SSH必须是没有密码的,所以我们要把NameNode节点和DataNode节点配制成无秘密通信,同理DataNode也需要配置无密码链接NameNode节点。

在每一台机器上配置:

vi /etc/ssh/sshd_config打开

RSAAuthentication yes # 启用 RSA 认证,PubkeyAuthentication yes # 启用公钥私钥配对认证方式

Master01:运行:ssh-keygen –t rsa –P ‘‘  不输入密码直接enter

默认存放在 /root/.ssh目录下,

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[[email protected] .ssh]# ls

authorized_keys  id_rsa  id_rsa.pub  known_hosts

远程copy:

scp authorized_keys c2:~/.ssh/

scp authorized_keys c3:~/.ssh/

五、配置几个文件(各个节点一样)

5.1.   hadoop/etc/hadoop/hadoop-env.sh 添加: 

# set to the root ofyour Java installation
  export JAVA_HOME=/usr/java/latest  

  # Assuming your installation directory is/usr/local/hadoop
  export HADOOP_PREFIX=/usr/local/hadoop  

5.2. etc/hadoop/core-site.xml

<configuration>
    <property>
         <name>fs.defaultFS</name>
         <value>hdfs://c1:9000</value>
    </property>
     <property>
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/cdh/hadoop/data/tmp</value>
   </property>
</configuration>

5.3. etc/hadoop/hdfs-site.xml

<configuration>
 <property>
    <!--开启web hdfs-->
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
 </property>
 <property>
   <name>dfs.replication</name>
   <value>2</value>
 </property>
 <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/cdh/hadoop/data/dfs/name</value>
    <description> namenode 存放name table(fsimage)本地目录(需要修改)</description>
 </property>
 <property>
     <name>dfs.namenode.edits.dir</name>
     <value>${dfs.namenode.name.dir}</value>
     <description>namenode粗放 transactionfile(edits)本地目录(需要修改)</description>
  </property>
  <property>
      <name>dfs.datanode.data.dir</name>
      <value>/usr/local/cdh/hadoop/data/dfs/data</value>
      <description>datanode存放block本地目录(需要修改)</description>
  </property>
  <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property>
<property>
     <name>dfs.permissions.enabled</name>
     <value>false</value>
</property>
</configuration>

5.4 etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5.5 etc/hadoop/yarn-env.sh

# some Java parameters
export JAVA_HOME=/usr/local/java/jdk1.7.0_67

5.6 etc/hadoop/yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>c1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>c1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>c1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>c1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>c1:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

5.7. etc/hadoop/slaves

c2
c3

六:启动及验证安装是否成功

格式化:要先格式化HDFS:


[html] view plaincopy
  1. bin/hdfs namenode -format
启动:
  sbin/start-dfs.sh
  sbin/start-yarn.sh

[[email protected] hadoop]# jps

3250 Jps

2491 ResourceManager

2343 SecondaryNameNode

2170 NameNode

datanode节点:

[[email protected] ~]# jps

4196 Jps

2061 DataNode

2153 NodeManager

[html] view
plain
copy

  1. 1.   打开浏览器
  2. NameNode - http://localhost:50070/
  3. 2.   创建文件夹
  4. 3.    $bin/hdfs dfs -mkdir /user
  5. $ bin/hdfs dfs -mkdir /user/<username>
  6. 4.   Copy 文件
  7. $ bin/hdfs dfs -put etc/hadoop input
  8. 5.   运行作业
  9. $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.1.0.jar grep input output ‘dfs[a-z.]+‘
  10. 6.   查看输出
  11. $ bin/hdfs dfs -get output output
  12. $ cat output/*

时间: 2024-10-08 10:30:21

hadoop-2.3.0-cdh5.1.0完全分布式搭建(基于centos)的相关文章

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

CDH5.2.0升级到CDH5.3.3

公司有一个Spark on Yarn集群,基于CM5.2.0+CDH5.2.0搭建,Spark的版本是1.1.0.为了使用Spark1.2.0的一些特性,决定将集群版本升级到CM5.3.3+CDH5.3.3.之所以升级CM,是因为CM的版本号必须大于等于CDH的版本号.下面分成两个步骤介绍升级过程:CM升级和CDH升级. 1 CM升级过程介绍     1.1 admin用户登陆http://10.10.244.137:7180/cmf/home,关闭集群服务和Cloudera managemen

Centos6.5安装配置Cloudera Manager CDH5.6.0 Hadoop

环境规划操作系统版本:CentOS-6.5-x86_64-minimal.iso 192.168.253.241    master   虚拟机4G内存192.168.253.242    slave1    虚拟机2G内存192.168.253.243    slave2    虚拟机2G内存 一.环境初始化1.修改主机名(每台机器都执行) 192.168.253.241    master 192.168.253.242    slave1 192.168.253.243    slave2

Cloudera Hadoop 5&amp; Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境 本课程涉及的技术产品及相关版本: 技术 版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H

数据采集+调度:cdh5.8.0+mysql5.7.17+hadoop+sqoop+hbase+oozie+hue

一.前期准备 1.操作系统版本 # cat /etc/redhat-release CentOS release 6.5 (Final) # uname –aLinux enc-bigdata05 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux 2.前期软件准备 2-1. jdk版本: jdk-7u80-linux-x64.tar.gz [jdk1.7.80下载地址]

hadoop入门(3)&mdash;&mdash;hadoop2.0理论基础:安装部署方法

一.hadoop2.0安装部署流程         1.自动安装部署:Ambari.Minos(小米).Cloudera Manager(收费)         2.使用RPM包安装部署:Apache hadoop不支持.HDP与CDH提供         3.使用jar包安装部署:各版本均提供.(初期为了理解hadoop,建议使用这种方式)         部署流程:                 准备硬件(Linux操作系统)                 准备软件安装包,并安装基础软件

cdh4.6.0到cdh5.2.0 upgrade和rollback问题小结

upgrade小结:1.dfsadmin -upgradeProgress status 在cdh5.2.0中没有,在4.6.0有(见源码org.apache.hadoop.hdfs.tools.DFSAdmin)升级的时候不能通过这个看到升级状态rollingUpgrade这个参数在4.6.0中不存在,在5.2.0中有,可以用于滚动升级2.在cdh5.2.0中执行upgrade,nn中调用的命令是 hadoop-daemon.sh start namenode -upgrade 最终调用org

Pentaho Kettle 6.1连接CDH5.4.0集群

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 最近把之前写的Hadoop MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作.于是选取了上手容易并对Hadoop支持的比较成熟的Pentaho Kettle来测试,把一些配置过程和遇到的坑记录下来. Kettle可以在官网下载到,但是官网会让你注册才能下载而

CDH5.2.0集群优化配置

HDFSdfs.block.size HDFS中的数据block大小,默认是64M,对于较大集群,可以设置为128或264M dfs.datanode.socket.write.timeout/dfs.socket.timeout 增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置(默认300),比如30000,避免可能出现的IO超时异常 dfs.datanode.max.transfer.threads 增加datanod

Ubuntu14.04离线安装CDH5.6.0

官方安装文档:http://www.cloudera.com/documentation/enterprise/5-6-x/topics/installation.html 相关包的下载地址: Cloudera Manager地址:http://archive.cloudera.com/cm5/cm/5/ CDH安装包地址:http://archive.cloudera.com/cdh5/parcels/5.6.0/ 由于我们的操作系统为ubuntu14.04,需要下载以下文件: CDH-5.6