Hadoop伪分布式的搭建

实验平台:

Virtual Box 4.3.24

CentOS7

JDK 1.8.0_60

Hadoop 2.6.0

Hadoop基本安装配置主要包括以下几个步骤:

1)创建Hadoop用户

2)安装Java

3)设置SSH登陆权限

4)单机安装配置

5)伪分布式安装配置

1.1 创建Hadoop用户

linux创建用户的命令是useradd,设置密码的命令是passwd

在CentOS下,首先我们通过useradd命令创建一个Hadoop用户组,它的密码也是Hadoop:

useradd hadoop #设置hadoop用户组
passwd hadoop #配置hadoop用户组的密码

在/home文件夹下,出现了一个hadoop文件夹

1.2 安装JDK

到oracle官网下载一个jdk。并复制到/usr/lib/jvm下

cp jdk-8u60-linux-x64.tar.gz /usr/lib/jvm

接着解压缩

tar -zxvf jdk-8u60-linux-x64.tar.gz

z表示解压gzip属性的

x表示解压,c表示压缩

v表示显示过程

f表示接档案名字

用编辑器打开.bashrc文件:

vi ~/.bashrc

在第一行加入

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_60export JAVA_BIN=$JAVA_HOME/binexport PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JAVA_BIN PATH CLASSPATH

接着还要使刚才的更改生效:

source ~/.bashrc

使用echo命令查看环境变量:

[[email protected] jvm]# echo $JAVA_HOME
/usr/lib/jvm/jdk1.8.0_60

配置成功,可以用java -version命令查看jdk是否安装成功

1.3 配置SSH

CentOS7默认安装了OpenSSH(client),我们只要启动就好了。在shell下键入以下命令:

service sshd start

我们还要安装ssh server,在shell下执行:

yum install openssh-server

安装完后可以使用命令ssh localhost来ssh登陆本机,由于是首次登陆,会出现如下提示

按照提示输入yes,然后输入用户hadoop的密码,就可以登陆本机了。但这样每次都要输入密码,我们需要把ssh配置成不需要密码也能访问。

键入exit推出刚才建立的链接

生成SSH密钥:

[[email protected] hadoop]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): #直接回车
Enter passphrase (empty for no passphrase): #直接回车
Enter same passphrase again: #直接回车
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
93:6c:b7:39:e7:06:7f:13:d3:65:5a:47:5e:43:f3:6a [email protected]
The key‘s randomart image is:
+--[ RSA 2048]----+
|              .o |
|               .=|
|               o+|
|       . .     .*|
|        S .   E=o|
|       . o.o .+ .|
|          +o.  o |
|           +o o  |
|           ... . |
+-----------------+

生成密钥成功,密钥被放在/root/.ssh/id_rsa.pub位置。接着将密钥加入授权

cd /root/.ssh
cp id_rsa.pub authorized_keys #将刚才生成的密钥加入授权

接着再执行ssh localhost命令,可以发现已经不需要再输入登陆密码了

1.4 安装hadoop

把下载好的hadoop压缩包(注意是binary文件,不要下成source了)解压到/usr/local目录下

tar -zxvf ./hadoop-2.6.0.tar.gz -C /usr/local  # 解压到/usr/local中

将得到的文件夹改名为hadoop

mv ./hadoop-2.6.0/ ./hadoop

进入hadoop文件夹下的bin文件夹,可以通过hadoop version命令查看是否安装成功

如图所示,hadoop已经安装成功。接着我们可以运行hadoop官方的例子来测试功能是否正常,我们运行WordCount的例子来检验hadoop是否安装成功。首先在hadoop目录下创建input文件夹来存放输入数据;然后将./etc/hadoop/下的配置文件拷贝到input文件夹中;接着在hadoop目录下新建output文件夹,用来存放输出数据。

mkdir inputcp etc/hadoop/*.xml input
mkdir output

最后执行如下代码,调用了hadoop的grep功能:

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output ‘dfs[a-z.]+‘

接着查看输出数据的内容

cat ./output/*

运行上面命令后可以得到以下结果

1 dfsadmin

1.5 hadoop伪分布式配置

伪分布式安装时指在一台机器上模拟一个小的集群。当Hadoop在单节点上以伪分布式的方式运行时,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode。不管是真分布式还是伪分布式都需要通过配置文件对各组件的协同工作进行设置,对于伪分布式配置,我们需要修改core-site.xml,hdfs-site.xml和mapred-site-xml(最新hadoop没有这个文件)这三个文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中。

修改core-site.xml,将

<configuration>
</configuration>

改为

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://localhost:9000</value>
        </property>
</configuration>

<name>标签代表了配置项的名字,<value>项设置的是配置的值。对于core-site.xml文件,我们只需要在其中制定HDFS的地址和端口号,端口号按照官方文档配置为9000即可。然后我们修改hdfs-site.xml文件。修改后如下:

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>

配置完成后,首先需要初始化文件系统,由于hadoop的很多工作是在自带的HDFS文件系统上完成的,因此需要将文件系统初始化以后才能进一步开始计算任务,在bin目录下执行namenode的格式化:

./hdfs namenode -format

15/10/10 19:28:30 INFO util.ExitUtil: Exiting with status 0
15/10/10 19:28:30 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/127.0.0.1
************************************************************/

退出状态为0表示初始化成功,如果为1表示格式化失败。

接着开启命名节点和数据节点的守护进程:

启动完成后,输入jps命令就可以查看是否启动成功,如果启动成功,将会看到3个进程:

Jps、NameNodeDataNodeSecondaryNameNode

成功启动后,可以访问 Web 界面 http://localhost:50070 来查看 Hadoop 的信息。

上面单机实例中我们用grep读取的是本地数据,而在伪分布式中我们读取的则是HDFS中的数据,为此,我们需要建立一个HDFS文件系统。

bin/hdfs dfs -mkdir -p /user/hadoop/input

由于创建的是hadoop文件系统,在linux的文件系统下不会显示。 接着把etc/hadoop 下的所有文件拷贝到HDFS文件夹input中去

bin/hdfs dfs -put etc/hadoop/*.xml /user/hadoop/input

复制完成后,可以通过如下命令查看文件列表:

bin/hdfs dfs -ls /user/hadoop/input

参考:

http://www.powerxing.com/install-hadoop/

http://www.centoscn.com/CentOS/config/2013/0926/1713.html

《大数据技术原理与应用》 林子雨著

时间: 2024-10-12 04:11:25

Hadoop伪分布式的搭建的相关文章

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件 添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

Hadoop学习笔记之Hadoop伪分布式环境搭建

搭建为伪分布式Hadoop环境 1.宿主机(Windows)与客户机(安装在虚拟机中的Linux)网络连接. a) Host-only 宿主机与客户机单独组网: 好处:网络隔离: 坏处:虚拟机和其他服务器之间不能通讯: b) Bridge 桥接 宿主机与客户机在同一个局域网中. 好处:窦在同一个局域网,可以互相访问: 坏处:不完全. 2.Hadoop的为分布式安装步骤 a) 设置静态IP 在centos下左面上右上角图标右键修改: 重启网卡service network restart; 验证:

《OD大数据实战》hadoop伪分布式环境搭建

一.安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 mkdir -p /opt/modules mkdir -p /opt/software mkdir -p /opt/datas mkdir -p /opt/tools chmod 775 /opt/* chown beifeng:beifeng /opt/* 最终效果如下: [[email protected]02 opt]$ pwd /opt [[email

hadoop学习(一) &#160; hadoop伪分布式环境搭建

前期准备 1.创建hadoop相关目录(便于管理) 2.给/opt/*目录赋予hadoop用户及所有组权限 sudo chrown -R hadoop:hadoop /opt/* 3.JDK安装与配置 配置HDFS/YARN/MAMREDUCE 1.解压hadoop tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/ (删除doc下的帮助文档,节省空间) rm -rf /opt/modules/hadoop-2.5.0/share/doc/ 2.配置had

hadoop伪分布式环境搭建:linux操作系统安装图解

本篇文章是接上一篇<新手入门篇:虚拟机搭建hadoop环境的详细步骤>,上一篇有人问怎么没写hadoop安装.在文章开头就已经说明了,hadoop安装会在后面写到,因为整个系列的文章涉及到每一步的截图,导致文章整体很长.会分别先对虚拟机的安装.Linux系统安装进行介绍,然后才会写到hadoop安装,关于hadoop版本我使用的是大快搜索三节点发行版DKhadoop.(三节点的DKHadoop发行版可以自己去大快网站页面下载,目前是开放所有权限的,也就是免费版本和付费版本的权限一样,不知道以后

hadoop伪分布式平台搭建

1. 安装jdk1.7 JAVA_HOME=/home/hadoop/app/jdk1.7.0 vi /etc/profile.d CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH source /etc/profile.d 2.ssh免密码登陆 service iptables status chkconfig

hadoop伪分布式环境搭建

1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:1

【Hadoop】伪分布式环境搭建、验证

Hadoop伪分布式环境搭建: 自动部署脚本: #!/bin/bash set -eux export APP_PATH=/opt/applications export APP_NAME=Ares # 安装apt依赖包 apt-get update -y && apt-get install supervisor -y && apt-get install python-dev python-pip libmysqlclient-dev -y # 安装pip.python

Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境. 对使用的系统环境作如下说明: 操作系统:CentOS 6.5 64位 主机IP地址:10.0.0.131/24 主机名:leaf 用户名:root hadoop版本:2.6.5 jdk版本:1.7 可以看到,这里直接使用root用户,而不是按照大多数的教程创建一个hadoop用户来进行操作,就是为了达到快速搭建Had