【转】Hadoop HDFS分布式环境搭建

原文地址  http://blog.sina.com.cn/s/blog_7060fb5a0101cson.html

Hadoop HDFS分布式环境搭建

最近选择给大家介绍Hadoop HDFS系统,因此研究了一下如何在Linux 下配置一个HDFS Clust。小记一下,以备将来进一步研究和记忆。

HDFS简介

全称 Hadoop Distributed File System, Hadoop分布式文件系统。 根据Google的GFS论文,由Doug Cutting使用JAVA开发的开源项目。HDFS是Hadoop项目的一部分。为Hadoop提供底层的数据存储,满足上次各种实际应用使用(如Map/Reduce)。HDFS是典型的的Master/Slave集群架构,由一个NameNode和多个DateNode组成,NameName只能有一个,扮演Master角色,负责对具体的存储块的元数据进行保存,比如控制某个存储块具体保存在哪个DataNode上;DataNode可以为多个,扮演着Slave的角色,负责对具体的存储块进行保存,一个相同的存储块根据配置可以保存到多个DataNode上,以保持数据的高可用性。

环境介绍

三台主机,一台NameNode, 2台DataNode


Role


IP


Host


Type


Version


NameNode


10.34.64.222


NC-VM-PL-DEV-26


Master


CentOS 6.4


DataNode


10.34.64.223


NC-VM-PL-DEV-27


Slave


CentOS 6.4


DataNode


10.34.64.224


NC-VM-PL-DEV-28


Slave


CentOS 6.4

配置流程

原则:三台机器的配置保持一致就可以,下面具体描述NameNode主机的过程

1.       安装JDK1.6 (略)

2.       创建HDFS账号,最好这样,便于管理

[[email protected] ~]# useradd hdfs

[[email protected] ~]# passwd hdfs

3.       配置免密码的SSH访问机制

通常Centos系统都默认安装SSH, 如果没有安装,请单独安装,yum install ssh

a)         切换至hdfs登录.

b)         [[email protected] ~]$ cd ~

c)         [[email protected] ~]$ ls -a

d)         [[email protected] ~]$ cd .ssh

e)         [[email protected] ~]$ ssh-keygen –t rsa

f)          [[email protected] ~]$ cat id_rsa.pub > authorized_keys

g)         至此可以测试一下ssh 本机IP是否需要密码,如果成功,说明本机配置成功。

h)         然后将authorized_keys文件复制到所有DataNode节点,[[email protected] ~]$ scp authorized_keys [email protected]:/home/hdfs/.ssh

i)           给另一个DataNode节点相同的操作,至此免密码登录配置完毕,可以通过本机ssh 各个节点IP来测试是否需要密码登录

4.       下载Hadoop软件包,官方下载地址

a)        http://mirrors.cnnic.cn/apache/hadoop/common/stable/

b)        http://hadoop.apache.org/releases.html#Download

切换至hdfs账号,解压至/home/hdfs/hadoop

[[email protected] ~]$ tar zxf hadoop-2.2.0.tar.gz

[[email protected] ~]$ mv hadoop-2.2.0  hadoop

5.       配置环境变量

a)         [[email protected] ~]$ vim ~/.bash_profile

b)         HADOOP_HOME=/home/hdfs/hadoop

export HADOOP_HOME

export  JRE_HOME=$JAVA_HOME/jre

export  CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export  PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HADOOP_HOME/bin

6.       在NameNode上修改hadoop配置文件

主要修改/home/hdfs/hadoop/etc/hadoop/目录下的配置文件

Hadoop-env.sh:         Hadoop环境变量设置

Core-site.xml:            NameNode  IP和端口设置

Hdfs-site.xml:            HDFS数据块副本等参数设置

Mapred-site.xml:      MapReduce 完成JobTracker  IP和端口设置

Slaves:                          完成datanode节点IP设置

6.1 配置core-site.xml

fs.default.name

hdfs://10.34.64.222:9000/

6.2 配置 hdfs-site.xml

dfs.name.dir

/home/hdfs/hadoop-2.2.0/data/dfs.name.dir

dfs.data.dir

/home/hdfs/hadoop-2.2.0/data/dfs.data.dir

dfs.permissions

false

dfs.replication

2

6.3 配置 mapred-site.xml

mapred.job.tracker

Master:9001

6.4 配置 hadoop-env.sh

将JAVA_HOME的值修改为真实有效的地址,如果不知道,请执行echo $JAVA_HOME 查看。export JAVA_HOME=/usr/java/jdk1.6.0_27

6.5 配置 slaves

NC-VM-PL-DEV-27

NC-VM-PL-DEV-28

7.       复制hadoop系统到所有DataNode节点

将主NameNode节点安装好的Hadoop系统目录复制到每一个从DataNode节点上.

[[email protected] hadoop]$ scp –r /home/hdfs/hadoop 10.34.64.223: /home/hdfs/hadoop

[[email protected] hadoop]$ scp –r /home/hdfs/hadoop 10.34.64.224: /home/hdfs/hadoop

8.       在每一个主机上修改Hosts文件,以便于主机名和IP地址解析

修改每台机器上的/etc/hosts文件

a)         如果是NameNode,需要在hosts文件中添加集群中所有节点的IP地址及对应的主机名。示例:

10.34.64.224 NC-VM-PL-DEV-28

10.34.64.223 NC-VM-PL-DEV-27

10.34.64.222 NC-VM-PL-DEV-26

b) 如果是DataNode,只需要在文件中添加本机和NameNode的Ip地址和主机名。

为了方便都填上也挺好。

9.       格式化NameNode

执行如下命令做格式化操作,每次如果有修改conf,最好做一次格式化命令

[[email protected] ~]$ hadoop namenode –format

如果格式化成功,会返回一堆有关NameNode的启动信息,其中会有一句“…. has been successfully formatted.”

10.   启动HDFS

[[email protected] ~]$./home/hdfs/hadoop/bin/start-dfs.sh

如果启动遇到问题,请对NameNode或DataNode的日志进行查看,路径为/home/hdfs/hadoop/logs,看看是否有Exception抛出。

11.   简单对HDFS进行试用

[[email protected] ~]$ hadoop fs –mkdir /newdir

[[email protected] ~]$ hadoop fs –ls

用jps命令检查一下是否正常启动:

[[email protected] ~]$ jps

9193 SecondaryNameNode

8914 NameNode

9615 Jps

查看集群状态

[[email protected] ~]$ hadoop dfsadmin -report

DEPRECATED: Use of this script to execute hdfs command is deprecated.

Instead use the hdfs command for it.

13/12/04 15:46:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Configured Capacity: 0 (0 B)

Present Capacity: 0 (0 B)

DFS Remaining: 0 (0 B)

DFS Used: 0 (0 B)

DFS Used%: NaN%

Under replicated blocks: 0

Blocks with corrupt replicas: 0

Missing blocks: 0

-------------------------------------------------

Datanodes available: 0 (0 total, 0 dead)

浏览器方式:在WEB页面下查看Hadoop工作情况

输入部署Hadoop服务器的IPhttp://IP:50070http://IP:50030.

时间: 2024-10-03 14:55:49

【转】Hadoop HDFS分布式环境搭建的相关文章

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件 添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

Hadoop学习笔记之Hadoop伪分布式环境搭建

搭建为伪分布式Hadoop环境 1.宿主机(Windows)与客户机(安装在虚拟机中的Linux)网络连接. a) Host-only 宿主机与客户机单独组网: 好处:网络隔离: 坏处:虚拟机和其他服务器之间不能通讯: b) Bridge 桥接 宿主机与客户机在同一个局域网中. 好处:窦在同一个局域网,可以互相访问: 坏处:不完全. 2.Hadoop的为分布式安装步骤 a) 设置静态IP 在centos下左面上右上角图标右键修改: 重启网卡service network restart; 验证:

《OD大数据实战》hadoop伪分布式环境搭建

一.安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 mkdir -p /opt/modules mkdir -p /opt/software mkdir -p /opt/datas mkdir -p /opt/tools chmod 775 /opt/* chown beifeng:beifeng /opt/* 最终效果如下: [[email protected]02 opt]$ pwd /opt [[email

hadoop伪分布式环境搭建

1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:1

Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建

Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统.它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁. 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据.此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级.在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache Flink)和现有的存储系统(如Amazon S3,OpenSt

hadoop学习(一) &#160; hadoop伪分布式环境搭建

前期准备 1.创建hadoop相关目录(便于管理) 2.给/opt/*目录赋予hadoop用户及所有组权限 sudo chrown -R hadoop:hadoop /opt/* 3.JDK安装与配置 配置HDFS/YARN/MAMREDUCE 1.解压hadoop tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/ (删除doc下的帮助文档,节省空间) rm -rf /opt/modules/hadoop-2.5.0/share/doc/ 2.配置had

hadoop伪分布式环境搭建:linux操作系统安装图解

本篇文章是接上一篇<新手入门篇:虚拟机搭建hadoop环境的详细步骤>,上一篇有人问怎么没写hadoop安装.在文章开头就已经说明了,hadoop安装会在后面写到,因为整个系列的文章涉及到每一步的截图,导致文章整体很长.会分别先对虚拟机的安装.Linux系统安装进行介绍,然后才会写到hadoop安装,关于hadoop版本我使用的是大快搜索三节点发行版DKhadoop.(三节点的DKHadoop发行版可以自己去大快网站页面下载,目前是开放所有权限的,也就是免费版本和付费版本的权限一样,不知道以后

Hadoop完全分布式环境搭建(二)——基于Ubuntu16.04设置免密登录

在Windows里,使用虚拟机软件Vmware WorkStation搭建三台机器,操作系统Ubuntu16.04,下面是IP和机器名称. [实验目标]:在这三台机器之间实现免密登录 [搭建准备] 1.三台机器上已建立一个共同的账号:hadoop,口令一致 [设置步骤] 1.在主节点master上设置 1).$cd ~/.ssh 使用ll命令查看,当前~/.ssh文件夹下是空的 2).生成一对密钥,本机的密钥,放在.ssh文件夹下 $ ssh-keygen -t rsa 生成过程中,一路回车即可

hadoop完全分布式环境搭建

1,设置Java环境 rpm -ivh jdk-8u73-linux-x64.rpm 添加环境变量到启动文件vi /etc/profile export JAVA_HOME=/usr/java/jdk1.8.0_73 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar 测试java环境 [[email protected] ~]# more test.j