伪分布式 hadoop 2.6.4

说明:

任务:搭建Hadoop伪分布式版本。

目的:快速搭建一个学习环境,跳过这一环境,快速进入状态,使用Hadoop一些组件做些任务

没有选择2.7,觉得bug比较多,不稳定。

选择伪分布式简单快速

环境:

Win 7  64  8G 内存 ,4核

VM 12,1 虚拟机  3G 内存

ubuntu 4.4.0  x86-64

Hadoop 2.6.4

JDK 1.7.0_80

1.  虚拟机Linux准备

安装虚拟机,(可以选择克隆方式),网络选择NAT。

创建用户hadoop,  配置 sudo 命令,文件设置 (待细化:Baidu)

后续所有操作以hadoop用户进行,没有权限就 sudo

1.1 网络IP 配置(偷懒,采用默认分配, 如果多节点要设置, 待细化)

[email protected]:~$ ifconfig
ens33     Link encap:Ethernet  HWaddr 00:0c:29:2e:0f:82
          inet addr:192.168.249.144  Bcast:192.168.249.255  Mask:255.255.255.0
          inet6 addr: fe80::400:dd35:2b5d:4dba/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:145870 errors:0 dropped:0 overruns:0 frame:0
          TX packets:12833 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:209812987 (209.8 MB)  TX bytes:1827590 (1.8 MB)

1.2 主机名设置

修改以下三个地方:

a

[email protected]:~$ sudo vi /etc/hostname
[email protected]:~$ more /etc/hostname
ssmaster

b

[email protected]:~$ hostname
ubuntu
[email protected]:~$ sudo hostname ssmaster
[email protected]:~$ hostname
ssmaster

c

[email protected]:~$ sudo vi /etc/hosts

修改后:

127.0.0.1       localhost
#127.0.1.1      ubuntu
192.168.249.144 ssmaster

2. 安装JDK

配置环境变量

vi /etc/profile  在末尾添加保存

export JAVA_HOME=/home/szb/hadoop/jdk1.7.0_80
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=./:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

执行命令生效  source /etc/profile

如下安装成功

[email protected]:~$ java -version
java version "1.7.0_80"
Java(TM) SE Runtime Environment (build 1.7.0_80-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode)

3. SSH 设置

先测试  ssh ssmaster (当前主机名,前面设置)

需要密码表示还没设置。

执行以下命令,一路回车。

[email protected]:~$ cd ~
[email protected]:~$ ssh-keygen -t rsa
[email protected]:~/.ssh$ cp id_rsa.pub authorized_keys
[email protected]:~/.ssh$ ls
authorized_keys  id_rsa  id_rsa.pub  known_hosts
[email protected]:~/.ssh$ more authorized_keys
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCxjtfFUPSmTNNHJ4+4SubFrNEz7Teyu3HHvq7Lq0cOWXEJ6r53zA9LCawDyKUsrv5pNly4bqlt6SWJSELySieu+WgPVL6UNwROUE
uBDagbnURviUVt6dXLcCOlqsCvy0AQsk+YIvS+qQhmE839X4W+Zd5xBZgUlGIqS1WhXbCs8sHiho09rxA0MIBXBlyvkfwmh71ubXny6GQHH3ZriyRZO0KrcMgwPHgsC/83fzSujnw5
BKiesJkpLHejmCo8m+eqW1Hcmj7OFMnAbaih86rqUnAE4rNrJnQUin73KgUFKQeHwnGRL3CPWR/KXdNvoEyUPHc/eeW0HhfK8GCWlQ/P [email protected]

测试,应该无密码登录成功

ssh ssmaster

exit

3.准备hadoop 安装包

下载到任意目录

解压

tar -zxvf hadoop-2.6.4.tar.gz

移动解压包

sudo mv hadoop-2.6.4 /opt/

4.配置hadoop

4.1 添加hadoop路径到环境变量

sudo vi /etc/profile  修改后如下

export HADOOP_HOME=/opt/hadoop-2.6.4
export JAVA_HOME=/home/szb/hadoop/jdk1.7.0_80
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=./:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

source  /etc/profile  生效

4.2  创建hdfs 数据存放目录

在hadoop安装目录下创建 dfs/name  dfs/data

[email protected]:/opt/hadoop-2.6.4$ pwd
/opt/hadoop-2.6.4
[email protected]:/opt/hadoop-2.6.4$ mkdir dfs
[email protected]:/opt/hadoop-2.6.4$ ls
bin  dfs  etc  include  lib  libexec  LICENSE.txt  logs  NOTICE.txt  README.txt  sbin  share  tmp
[email protected]:/opt/hadoop-2.6.4$ cd dfs
[email protected]:/opt/hadoop-2.6.4/dfs$ mkdir name data
[email protected]:/opt/hadoop-2.6.4/dfs$ ls
data  name

4.3 添加jdk路径到 hadoop xxxx.sh  脚本文件中

所在路径  [email protected]:/opt/hadoop-2.6.4/etc/hadoop$

在以下文件中添加

export JAVA_HOME=/home/szb/hadoop/jdk1.7.0_80

hadoop-env.sh

yarn-env.sh

mapred-env.sh

4.4 修改slaves文件

所在路径  [email protected]:/opt/hadoop-2.6.4/etc/hadoop$

修改slaves文件内容为主机名,修改后:

[email protected]:/opt/hadoop-2.6.4/etc/hadoop$ more slaves
ssmaster

4.5 配置xml文件

4.5.1 core-site.xml

修改后内容

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ssmaster:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop-2.6.4/tmp</value>
    </property>

</configuration>

备注:

fs.defaultFS     namenode的目录

hadoop.tmp.dir  中间临时结果存放目录

目前来说,core-site.xml文件的最小化配置,core-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml

4.5.2 hdfs-site.xml

修改后内容

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop-2.6.4/dfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>/opt/hadoop-2.6.4/dfs/data</value>
    </property>

</configuration>

备注:

dfs.replication     副本数量,伪分布式为1,分布式一般为3

dfs.namenode.name.dir   namenode 数据目录

dfs.namenode.data.dir     datanode 数据目录

上述是hdfs-site.xml文件的最小化配置,hdfs-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

4.5.3 mapred-site.xml

首先 复制 mapred-site.xml.template 为 mapred-site.xml

添加内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

备注:

mapreduce.framework.name  mapreduce的资源管理组件,可以存在其他值

上述是mapred-site.xml最小化配置,mapred-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

4.5.4 yarn-site.xml

修改后内容

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ssmaster</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>    
</configuration>

备注:
yarn.resourcemanager.hostname  resourcemanager的节点。    (问题猜测 如果是分布式 ,可以与namenode不同节点,待验证)

yarn.nodemanager.aux-services   暂不清楚含义,有空了解

上述内容是yarn-site.xml的最小化配置,yarn-site文件配置的各项内容可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

5.启动Hadoop

5.1 格式化HDFS

[email protected]:/opt/hadoop-2.6.4$  bin/hdfs namenode -format

最后日志有这样的,说明成功

16/10/22 19:40:40 INFO common.Storage: Storage directory /opt/hadoop-2.6.4/dfs/name has been successfully formatted.

5.2 启动HDFS

[email protected]:/opt/hadoop-2.6.4$ sbin/start-dfs.sh Starting namenodes on [ssmaster]ssmaster: starting namenode, logging to /opt/hadoop-2.6.4/logs/hadoop-hadoop-namenode-ssmaster.outssmaster: starting datanode, logging to /opt/hadoop-2.6.4/logs/hadoop-hadoop-datanode-ssmaster.outStarting secondary namenodes [0.0.0.0]The authenticity of host ‘0.0.0.0 (0.0.0.0)‘ can‘t be established.ECDSA key fingerprint is SHA256:ADBlLjhQ7xYbJRFQpw9t5OyA7+q7Yo50S+oK7liAnUk.Are you sure you want to continue connecting (yes/no)? yes0.0.0.0: Warning: Permanently added ‘0.0.0.0‘ (ECDSA) to the list of known hosts.0.0.0.0: starting secondarynamenode, logging to /opt/hadoop-2.6.4/logs/hadoop-hadoop-secondarynamenode-ssmaster.out
[email protected]:/opt/hadoop-2.6.4$ jps
11151 DataNode
11042 NameNode
11349 SecondaryNameNode
11465 Jps

http://192.168.249:144:50070/

备注:

Starting secondary namenodes [0.0.0.0]
The authenticity of host ‘0.0.0.0 (0.0.0.0)‘ can‘t be established.

secondary namenode IP 为0,接下来提示yes/no,选择yes.

不知道怎么配置这里。 有空回头研究 [遗留小问题]

5.3 启动HDFS

[email protected]:/opt/hadoop-2.6.4$ sbin/start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /opt/hadoop-2.6.4/logs/yarn-hadoop-resourcemanager-ssmaster.out
ssmaster: starting nodemanager, logging to /opt/hadoop-2.6.4/logs/yarn-hadoop-nodemanager-ssmaster.out
[email protected]:/opt/hadoop-2.6.4$ jps
11151 DataNode
11042 NameNode
11714 Jps
11349 SecondaryNameNode
11675 NodeManager
11540 ResourceManager

http://192.168.249.144:8042/
http://192.168.249.144:8088/

hadoop web控制台页面的端口整理:

50070:hdfs文件管理

8088:ResourceManager

8042:NodeManager

JPS查看各个节点启动了,WEB 能打开各种页面,标志安装成功

6.保存虚拟机镜像

Z 总结:

Hadoop伪分布搭建初步成功

Z.1 存在的情况:[遗留研究]

  • 网络配置没有特意设置,由虚拟机自动分配,可能有潜在IP变化问题
  • hostname 大而全地设置,没有理清各个文件命令的功能
  • hdfs 启动是 secondname node  ip显示为0000,提示连接拒绝, 一定某个地方可以设置

Z.2 后续:

  • 重点研究hadoop使用,安装eclipse,常用操作,jar调用
  • 搭建spark环境,常用操作
  • 有空研究纯分布式搭建
  • 有空研究hadoop配置各个参数的含义,配置

Q 其他:

不同linux系统拷贝文件

scp hadoop-2.6.4.tar.gz  [email protected]:~/

各种配置文件打包上传:

本机hadoop安装后涉及的文件.rar   任务:上传到某个地方,link过来 [遗留完善]

C 参考:

Ref 1

主要参考这篇教程

hadoop2.6.0版本搭建伪分布式环境

http://blog.csdn.net/stark_summer/article/details/43484545

时间: 2024-11-05 23:32:14

伪分布式 hadoop 2.6.4的相关文章

实战1 伪分布式Hadoop单节点实例 CDH4集群安装 Hadoop

Hadoop由两部分组成 分布式文件系统HDFS 分布式计算框架MapReduce 其中分布式文件系统(HDFS)主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对于存储在分布式文件系统中的数据进行分布式计算. 详细的介绍个节点的作用 NameNode: 1.整个Hadoop集群中只有一个NameNode.它是整个系统的中枢,它负责管理HDFS的目录树和相关文件 元数据信息.这些信息是以"fsimage (HDFS元数据镜像文件)和Editlog(HDFS文件改动

Centos6下安装伪分布式Hadoop集群

Centos6下安装伪分布式hadoop集群,选取的hadoop版本是apache下的hadoop2.7.1,在一台linux服务器上安装hadoop后,同时拥有namenode,datanode和secondarynamenode等节点的功能,下面简单安装下. 前置准备 主要涉及防火墙关闭.jdk安装.主机名修改.ip映射.免密登录设置等. 关闭防火墙 有临时和永久,这里使用永久关闭的方式. # 临时关闭 [[email protected] ~]# service iptables stop

配置单节点伪分布式Hadoop

先写的这一篇,很多东西没再重复写. 一.所需软件 jdk和ubuntu都是32位的. 二.安装JDK 1.建jdk文件夹 cd usr sudo mkdir javajdk 2.移动mv或者复制cp安装包 //进入桌面 cd home/hxsyl/DeskTop sudo mv /usr/javajdk 3.安装 //切换到root下 //如果忘记密码,先 sudo passwd //直接会让你输入新密码,不需要输入原来的密码 //到jdk目录下 ./jdk-6u30-linux-i586.bi

伪分布式Hadoop + zookeeper + Hbase

目的: CentOS7 安装 Hadoop 伪分布式环境 组件版本信息: Hadoop: 2.7.7 Hbase: 1.4.8 zookeeper:3.4.7 资料下载: 资料包含:虚拟机安装包,CentOS7镜像,所需组件 链接:https://pan.baidu.com/s/1-Ye0vppf19bYQ9SUEDqHXg 提取码:hysl Linux 设置: (1.)关闭防火墙: systemctl stop firewalld.service            #停止firewall

单机伪分布式Hadoop环境搭建

1.安装和配置JDK 具体操作见笔记 http://www.cnblogs.com/DreamDriver/p/6597178.html 2.创建Hadoop用户 为Hadoop创建一个专门的用户,可以在系统安装的时候就创建,也可以在系统安装好之后用如下命令创建: # groupadd hadoop-user # useradd -g hadoop-user hadoop # passwd hadoop 3.下载安装Hadoop 4.配置SSH (1)生成密钥对时,执行如下命名 # ssh-ke

在虚拟机环境下,电脑间拷贝配置好的伪分布式Hadoop环境,出现namenode不能启动的问题!

原因:在原来的电脑上配置伪分布的时候,已经将hostname与IP绑定了,所以拷贝到别的电脑的时候,重新启动的时候就会失败,因为新的电脑的IP不见得就和原来的电脑的IP一样!因为在不同的网络中,在NAT模式下Linux的IP肯定是位于不同的网段的!! 解决方法:vi /etc/hosts  将原来的电脑的IP改成新的电脑的IP即可. 另外:重新格式化hadoop的时候,要把原来的hadoop下的tmp目录下的所有文件都删除掉,然后停止所有的进程,如datanode等.然后 利用hadoop na

ubuntu 下安装伪分布式 hadoop

安装准备: (1)hadoop安装包:hadoop-1.2.1.tar.gz (2)jdk安装包:jdk-7u60-linux-i586.gz (3)要是须要eclipse开发的话 还须要eclipse安装包 和eclipse和hadoop相关连的jar包. 安装: (1)能够选择一个新建用户安装 也能够使用眼下账户. (2)规定 所属用户组: (3) 给予用户hadoop权限: sudo vim /etc/sudoers 改动加入: watermark/2/text/aHR0cDovL2Jsb

伪分布式hadoop环境搭建

官网上的教程版本不符,还过于简单(很多必要的步骤没提到), 所以自行网上找教程. 在这里整理一下: 假设java_home已经配置完成,ssh也可连通 1.修改配置文件 以下文件均在 %HADOOP_HOME%/conf/ 下 core-site.xml:  Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等. hdfs-site.xml:  Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等. mapred-site.

Hadoop学习第四次:伪分布式Hadoop安装

1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3 关闭防火墙的自动运行 执行命令 chkconfig iptables off 验证: chkconfig --list | grep iptables1.4 设置主机名 执行命令 (1)hostname chaoren (2)vi /etc/sysconfig