Hadoop安装杂记（1）

一、Hadoop基础

1、伪分布式模型（单节点）

1.1 配置centos7默认JDK1.7的环境变量

[[email protected] ~]# vim /etc/profile.d/java.sh
i
export JAVA_HOME=/usr

[[email protected] ~]# source /etc/profile.d/java.sh

安装jdk-devl包：
[[email protected] ~]# yum install java-1.7.0-openjdk-devel.x86_64

1.2 创建hadoop目录，并将hadoop展开至目录

[[email protected] ~]# mkdir /bdapps
[[email protected] ~]# tar xf hadoop-2.6.2.tar.gz -C /bdapps/

[[email protected] ~]# cd /bdapps/
创建软链接：
[[email protected] bdapps]# ln -sv hadoop-2.6.2 hadoop

1.2 设置hadoop环境变量

[[email protected] hadoop]# vim /etc/profile.d/hadoop.sh

export HADOOP_PREFIX=/bdapps/hadoop
export PATH=$PATH:${HADOOP_PREFIX}/bin:${HADOOP_PREFIX}/sbin
export HADOOP_YARN_HOME=${HADOOP_PREFIX}
export HADOOP_MAPPERD_HOME=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}

重载文件：
[[email protected] ~]# source /etc/profile.d/hadoop.sh

1.3 创建运行Hadoop进程的用户和相关目录

创建组
[[email protected] ~]# groupadd hadoop
创建用户，划入hadoop组
[[email protected] ~]# useradd -g hadoop yarn
[[email protected] ~]# useradd -g hadoop hdfs
[[email protected] ~]# useradd -g hadoop mapred

创建数据目录：
[[email protected] ~]# mkdir -pv /data/hadoop/hdfs/{nn,snn,dn}
数据目录授权：
[[email protected] ~]# chown -R hdfs:hadoop /data/hadoop/hdfs
[[email protected] ~]# ll /data/hadoop/hdfs
total 0
drwxr-xr-x 2 hdfs hadoop 6 Apr 19 08:44 dn
drwxr-xr-x 2 hdfs hadoop 6 Apr 19 08:44 nn
drwxr-xr-x 2 hdfs hadoop 6 Apr 19 08:44 snn

创建日志目录并配置用户权限（在安装目录下配置）：
[[email protected] ~]# cd /bdapps/hadoop
[[email protected] hadoop]# mkdir logs
[[email protected] hadoop]# chmod g+w logs/
[[email protected] hadoop]# chown -R yarn:hadoop logs
[[email protected] hadoop]# ll | grep log
drwxrwxr-x 2 yarn  hadoop     6 Apr 19 08:47 logs

修改安装目录属主属组
[[email protected] hadoop]# chown -R yarn:hadoop ./*

1.4 配置hadoop

配置NS：
[[email protected] hadoop]# pwd
/bdapps/hadoop/etc/hadoop
[[email protected] hadoop]# vim core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
        <final>true</final>
    </property>
</configuration>

配置hdfs相关属性：
[[email protected] hadoop]# vim hdfs-site.xml 

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///data/hadoop/hdfs/nn</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///data/hadoop/hdfs/dn</value>
    </property>
    <property>
        <name>fs.checkpoint.dir</name>
        <value>file:///data/hadoop/hdfs/snn</value>
    </property>
    <property>
        <name>fs.checkpoint.edits.dir</name>
        <value>file:///data/hadoop/hdfs/snn</value>
    </property>
</configuration>

配置mapred（MapReduce）
[[email protected] hadoop]# cp mapred-site.xml.template mapred-site.xml
[[email protected] hadoop]# vim mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置yarn：
[[email protected] hadoop]# vim yarn-site.xml 

<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>localhost:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>localhost:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>localhost:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>localhost:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>localhost:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>10.201.106.131:8088</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.auxservices.mapreduce_shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
    </property>
</configuration>

1.5 定义从节点，伪分布模式默认从节点是自己，不用定义

[[email protected] hadoop]# cat slaves
localhost

1.6 格式化HDFS

切换hdfs用户：
[[email protected] ~]# su - hdfs

hdfs命令查看帮助：
[[email protected] ~]$ hdfs --help

格式化：
[[email protected] ~]$ hdfs namenode -format
查看：
[[email protected] ~]$ ls /data/hadoop/hdfs/nn/current/
fsimage_0000000000000000000      seen_txid
fsimage_0000000000000000000.md5  VERSION

1.7 启动hadoop

1.7.1 mapreduce相关启动

以hdfs用户启动相关进程：
启动名称节点：
[[email protected] ~]$ hadoop-daemon.sh start namenode

查看java进程：
[[email protected] ~]$ jps
9127 NameNode
9220 Jps
查看详细java进程信息：
[[email protected] ~]$ jps -v

启动辅助名称节点：
[[email protected] ~]$ hadoop-daemon.sh start secondarynamenode

启动data节点：
[[email protected] ~]$ hadoop-daemon.sh start datanode

远程上传文件测试：
[[email protected] ~]$ hdfs dfs -mkdir /test
[[email protected] ~]$ hdfs dfs -put /etc/fstab /test/fstab
[[email protected] ~]$ hdfs dfs -ls /test
Found 1 items
-rw-r--r--   1 hdfs supergroup       1065 2018-04-20 15:04 /test/fstab

这个就是刚才上传fstab文件
[[email protected] ~]$ cat /data/hadoop/hdfs/dn/current/BP-908063675-10.201.106.131-1524136482474/current/finalized/subdir0/subdir0/blk_1073741825

本地宿主机存放数据的目录（文件系统）：
[[email protected] ~]$ ls /data/hadoop/hdfs/dn/current/
BP-908063675-10.201.106.131-1524136482474  VERSION

1.7.2 yarn集群启动

切换到yarn用户：
[[email protected] ~]# su - yarn

启动resourcemanager：
[[email protected] ~]$ yarn-daemon.sh start resourcemanager

启动nodemanager：
[[email protected] ~]$ yarn-daemon.sh start nodemanager

1.8 查看hadoop状态

浏览器访问：http://10.201.106.131:50070

浏览器访问：http://10.201.106.131:8088

1.9 hadoop上提交程序并运行

1.9.1 运行mapreduce测试程序

切换用户：
[[email protected] mapreduce]# su - hdfs

运行测试程序：
[[email protected] ~]$ yarn jar /bdapps/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar 

统计单词个数：
[[email protected] ~]$ yarn jar /bdapps/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar wordcount /test/fstab /test/fstab.out
查看统计结果：
[[email protected] ~]$ hdfs dfs -cat /test/fstab.out/part-r-00000

原文地址：http://blog.51cto.com/zhongle21/2106524

时间： 2024-08-13 22:45:09

Hadoop安装杂记（1）的相关文章

Hadoop安装杂记（2）

一.分布式模型 1.环境准备准备4个节点,master1为主控节点(NameNode.SecondaryNameNode.ResourceManager),master2-4作为数据节点(DataNode.NodeManager).并做好ntp时间同步 1.1 每个节点配置JAVA环境 [[email protected] ~]# vim /etc/profile.d/java.sh export JAVA_HOME=/usr [[email protected] ~]# scp /etc/p

hadoop安装教程

hadoop的核心 Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase.Hive等,这些都是基于HDFS和MapReduce发展出来的.要想了解Hadoop,就必须知道HDFS和MapReduce是什么. HDFS HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,适

转载：Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

原文 http://www.powerxing.com/install-hadoop/ 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住.加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1

分布式Hadoop安装

本文旨在介绍通过两台物理节点,实现完全分布式hadoop程序的部署 writen by [email protected] 环境介绍: 主机名机器IP 用途描述 Hadoop0 192.168.80.101 Namenode secondaryNamenode jobTracker CentOS6.4 jdk-6u24-linux-i586 hadoop-1.1.2 Hadoop1 192.168.80.102 Datanode taskTracker CentOS6.4 jdk-6u24-

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

参见:http://www.powerxing.com/install-hadoop/ 完全拷贝至上面网址环境本教程使用 Ubuntu 14.04 64位作为系统环境(Ubuntu 12.04 也行,32位.64位均可),请自行安装系统. 如果用的是 RedHat/CentOS 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置. 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,

hadoop安装和hadoop pipes编程说明

本篇文章主要是对hadoop pipes编程的一些问题的备注,对于网上常见的问题,并未完全写入. 安装基础环境:3台基于centos7的虚拟机(1个master,2个slave:slave1.slave2).hadoop-2.6.0 1. hadoop安装主要参考的网址是:hadoop参考安装 2. linux配置ssh免密码登录,具体参考的是:centos ssh免密码登录 tips: 1. 三个虚拟机的一定要用一样的帐号,即用户名.如果不一样的话,通过ssh进行免密码登录时会出现问题.比如

Alex 的 Hadoop 菜鸟教程: 第4课 Hadoop 安装教程 - HA方式 (2台服务器)

声明本文基于Centos 6.x + CDH 5.x 官方英文安装教程 http://www.cloudera.com/content/cloudera/en/documentation/cdh5/v5-0-0/CDH5-Installation-Guide/cdh5ig_cdh5_install.html 本文并不是简单翻译,而是再整理如果没有yum源请参考http://blog.csdn.net/nsrainbow/article/details/36629339#t2 准备工作用vm

Hadoop安装（Ubuntu Kylin 14.04）

安装环境:ubuntu kylin 14.04 haoop-1.2.1 hadoop下载地址:http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/ 1.安装JDK,这里要注意的是:要想在hadoop中使用,则需要在hadoop下输入命令:source /etc/profile 来实现,然后用java -version 测试看看是否生效了. 2.创建hadoop用户和用户组(切换到root) 创建hadoop用户组 sudo ad

手把手教你hadoop安装

<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:m="h