3-1.Hadoop单机模式安装

Hadoop单机模式安装

一、实验介绍

1.1 实验内容

  • hadoop三种安装模式介绍
  • hadoop单机模式安装
  • 测试安装

1.2 实验知识点

  • 下载解压/环境变量配置
  • Linux/shell
  • 测试WordCount程序

1.3 实验环境

  • hadoop2.7.6
  • Linux CentOS6终端

1.4 适合人群

本课程难度为一般,属于初级级别课程,适合具有linux基础的用户。

1.5 相关文件

  • https://pan.baidu.com/s/1a_Pjl8uJ2d_-r1hbN05fWA

二、Hadoop启动模式

Hadoop集群有三种启动模式:

  • 单机模式:默认情况下运行为一个单独机器上的独立Java进程,主要用于调试环境
  • 伪分布模式:在单个机器上模拟成分布式多节点环境,每一个Hadoop守护进程都作为一个独立的Java进程运行
  • 完全分布式模式:真实的生产环境,搭建在完全分布式的集群环境

三、用户及用户组

需要先添加用来运行Hadoop进程的用户组hadoop及用户hadoop。

3.1 添加用户及用户组

创建用户hadoop

# adduser hadoop

# passwd

并按照提示输入hadoop用户的密码,例如密码设定为 hadoop。注意输入密码的时候是不显示的。

将hadoop用户添加进sudo用户组

# usermod -G sudo hadoop

四、安装及配置依赖的软件包

4.1 安装jdk

#  yum install java-1.8.0-openjdk* -y

# echo $JAVA_HOME

$ java -version

4.2 配置ssh免密码登录

切换到 hadoop 用户,hadoop 用户时密码为 hadoop。后续步骤都将在 hadoop 用户的环境中执行。

$ su  hadoop # 密码为hadoop

配置ssh环境免密码登录。 在/home/hadoop目录下执行

$cd ~

$ ssh-keygen -t rsa   #一路回车

$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys

$ chmod 600 .ssh/authorized_keys

验证登录本机是否还需要密码,第一次需要密码以后不需要密码就可以登录。

$ sudo vi /etc/ssh/sshd_config

ListenAddress 127.0.0.1 #添加ssh这行监听本机

$ ssh localhost #仅需输入一次hadoop密码,以后不需要输入

五、下载并安装Hadoop

在hadoop用户登录的环境中进行下列操作:

5.1 下载Hadoop 2.7.6

$  wget http://labfile.oss.aliyuncs.com/hadoop-2.7.6.tar.gz

5.2 解压并安装

$ tar -zxvf hadoop-2.7.6.tar.gz

$ rm -r /home/hadoop/hdfs  #删除原本目录中的hdfs文件夹

$ mv hadoop-2.7.6 /home/hadoop/hdfs

$ chmod 777 /home/hadoop/hdfs

5.3 配置Hadoop

$ vim /home/hadoop/.bashrc

在/home/hadoop/.bashrc文件末尾添加下列内容:

#HADOOP START

export HADOOP_HOME=/home/hadoop/hdfs

#export JAVA_HOME=/usr/lib/jvm/java-8-oracle

#HADOOP END

在/home/hadoop/.bashrc文件中PATH路径更改HADOOP相关内容:

export PATH=/usr/local/sbin:/usr/local/bin/:/usr/bin:/usr/sbin:/sbin:/bin:/home/hadoop/hdfs/bin:/home/hadoop/hdfs/sbin

环境中的hive以及hbase等环境本次实验不会用到可以删去,保存退出后,激活新加的环境变量。

$ source ~/.bashrc

至此,Hadoop单机模式安装完成,可以通过下述步骤的测试来验证安装是否成功。

六、测试验证

创建输入的数据,暂时采用/etc/protocols文件作为测试

$ cd /home/hadoop/hdfs

$ mkdir input

$ cp /etc/protocols ./input

执行Hadoop WordCount应用(词频统计)

$ hadoop jar /home/hadoop/hdfs/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.6-sources.jar wordcount input output

若以上语句执行错误可以尝试应用以下语句执行

$ hadoop jar /home/hadoop/hdfs/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.6-sources.jar  org.apache.hadoop.examples.WordCount input output

查看生成的单词统计数据

$ cat output/*

注意:如果要继续下一节“伪分布式部署”实验,请勿停止本实验环境,直接点击文档上方的“下一个实验”按钮进入,因为伪分布式部署模式需要在单机模式基础上进行配置。

七、小结

本实验中介绍了Hadoop单机模式的安装方法,并运行wordcount进行基本测试。

八、课后作业

请使用hadoop的wordcount对日志文件/var/log/dpkg.log进行词频统计。

九、参考文档

本实验参考下列文档内容制作:

原文地址:https://www.cnblogs.com/AndyWong/p/9201623.html

时间: 2024-11-07 05:29:35

3-1.Hadoop单机模式安装的相关文章

Hadoop单机模式安装

需要先添加用来运行Hadoop进程的用户组hadoop及用户hadoop. 1. 添加用户及用户组 创建用户hadoop $ sudo adduser hadoop 需要输入shiyanlou的密码:shiyanlou.并按照提示输入hadoop用户的密码. 2. 添加sudo权限 将hadoop用户添加进sudo用户组 $ sudo usermod -G sudo hadoop 四.安装及配置依赖的软件包 1. 安装openssh-server.java.rsync等 $ sudo apt-g

Hadoop单机模式安装入门(Ubuntu系统)

闲来无事,突然看到关于Hadoop集群.以前也了解过,网上找过一些关于百度,谷歌等底层hadoop集群的文档,可是面对很多陌生的技术,看不太通透.所有想自己动手虚拟机试试.经常听到这么高大上的名词,Hadoop已经成为大数据的代名词.短短几年间,Hadoop从一种边缘技术成为事实上的标准.而另一方面,MapReduce在谷歌已不再显赫.当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代. Hadoop支持三种启动集群模式,分别是单机模式,wei分布式模式,安全分布式模式.下面我做

Hadoop单机模式安装-(1)安装设置虚拟环境

网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍如何在Windows环境下设置虚拟机环境以及一些准备工作,熟悉WMware的朋友可以略过. 我所记录的笔记适合没有Linux基础的朋友跟我一起操作,同时欢迎高手参观指导. 环境约定 以下环境基于攥写时间:5th July 2015. 宿主机器:Windows 8 虚拟机环境:WMware Wrokstation 11

Hadoop单机模式安装-(2)安装Ubuntu虚拟机

网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在虚拟机设置完毕后,如何进行Ubuntu的安装. 我所记录的笔记适合没有Linux基础的朋友跟我一起操作,同时欢迎高手参观指导. 环境约定 以下环境基于攥写时间:5th July 2015. 宿主机器:Windows 8 虚拟机环境:WMware Wrokstation 11 Ubuntu版本:Ubuntu Deskt

Hadoop单机模式的配置与安装

Hadoop单机模式的配置与安装 版权所有 前言: 由于Hadoop属于java程序,所以,安装Hadoop之前需要先安装jdk. 对于hadoop0.20.2的单机模式安装就需要在一个节点(一台主机)上运行5个节点. 分别是: JobTracker:负责Hadoop的Job任务分发和管理. TaskTracker:负责在单个节点上执行MapReduce任务. 对于Hadoop里面的HDFS的节点又有 NameNode:主节点,负责管理文件存储的名称节点 DateNode:数据节点,负责具体的文

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(1)

安装ssh Hadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下: 输入“Y”进行安装并等待自动安装完成. 安装ssh完成后启动服务 以下命令验证服务是否正常启动: 可以看到ssh正常启动: 设置免密码登录,生成私钥和公钥: 在/root/.ssh中生成两个文件:id_rsa和id_rsa.pub,id_rsa为私钥,id_rsa.pub为公钥,我们将公钥id_rsa.pub追加到 authorized_keys中,因为author

Hadoop单机模式部署

一.Hadoop部署模式 单机模式:默认情况下运行为一个单独机器上的独立Java进程,主要用于调试环境 伪分布模式:在单个机器上模拟成分布式多节点环境,每一个Hadoop守护进程都作为一个独立的Java进程运行 完全分布式模式:真实的生产环境,搭建在完全分布式的集群环境 二.添加用户和组 $ sudo adduser hadoop                         ##创建用户hadoop $ sudo usermod -G sudo hadoop                 

hbase0.96.0单机模式安装(win7 无需cygwin)

之前折腾了几天,想让hbase的单机模式在cygwin上跑起来,都不成功.正当我气馁之时,我无意中发现hbase0.96.0的bin和conf目录下有一些扩展名为cmd的文件.这难道是给windows用的?难道现在hbase可以直接在windows上运行了?抱着这样的想法,我尝试了不用cygwin的方法运行hbase,还真成功了.特此记录下来,给需要的人做一个参考. 1. 环境: Win7 64bit JDK1.6.0_43 64bit hbase-0.96.0-hadoop1 没错,不需要cy

CentOS下Hive2.0.0单机模式安装详解

本文环境如下: 操作系统:CentOS 6 32位 Hive版本:2.0.0 JDK版本:1.8.0_77 32位 Hadoop版本:2.6.4 1. 所需要的环境 Hive 2.0需要以下运行环境: Java 1.7以上(强烈建议使用Java 1.8) Hadoop 2.X 2. 下载.解压Hive安装包 Hive官网地址: http://hive.apache.org/ 例如: wget "http://mirrors.cnnic.cn/apache/hive/hive-2.0.0/apac