hadoop学习(一) 伪分布式环境初体验

前期准备

1、创建hadoop相关目录(便于管理)

2、给/opt/*目录赋予hadoop用户及所有组权限

sudo chrown -R hadoop:hadoop /opt/*

3、JDK安装与配置

配置HDFS／YARN／MAMREDUCE

1、解压hadoop

tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/
(删除doc下的帮助文档，节省空间)
rm -rf /opt/modules/hadoop-2.5.0/share/doc/

2、配置hadoop-env.sh

cd /opt/modules/hadoop-2.5.0/etc/hadoop
vi hadoop-env.shexport JAVA_HOME=/usr/local/jdk1.7.0_67

验证是否配置成功
/opt/modules/hadoop-2.5.0/bin/hadoop

3、配置core-site.xml

<!--指定namenode所在机器的位置和访问交互端口号--><property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop.lianwei.org(主机名):8020</value></property><!--指定Hadoop运行时的临时目录--><property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/modules/hadoop-2.5.0/data/tmp</value></property>

4、配置slaves

vi /opt/module/hadoop-2.5.0/etc/hadoop/slaves
将内容改为指定datanode所在机器位置：hadoop.lianwei.org

5、配置hdfs-site.xml

vi /opt/module/hadoop-2.5.0/etc/hadoop/hdfs-site.xml<!--指定系统中文件的块的副本个数--><property>
    <name>dfs.replication</name>
    <value>1</value>(分布式中默认是3个)</property>

6、格式化namenode

bin/hdfs namenode -format
注：会在hadoop.tmp.dir下生成dfs/name/current/fsimage_*(镜像文件)

7、启动hdfs

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanodejps(查看是否启动成功)

8、浏览器查看web控制台

http://hadoop.lianwei.org:50070

9、配置yarn-site.xml

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value></property>指定resorcemanager所在机器的位置：<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop.lianwei.org</value></property>

10、启动resourcemanager、nodemanager

$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager

11、通过浏览器查看YARN WEB-UI界面

http://hadoop.lianwei.org:8088

12、配置mapred-site.xml

指定mapreduce运行在YARN上<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value></property>

13、测试wordcount案例运行

在HDFS中创建待处理文件目录
bin/hdfs dfs -mkdir -p /user/lianwei/mapreduce/examples/wordcount/input
上传待处理文件到HDFS中的待处理目录中
bin/hdfs dfs -put /opt/data/lv.input /user/lianwei/mapreduce/examples/wordcount/input
执行命令
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/lianwei/mapreduce/examples/wordcount/input /user/lianwei/mapreduce/examples/wordcount/output(输出目录不能手动创建且不能存在，否则会覆盖)

14、在WEB UI中查看运行结果

注意事项：

1、centos之前的版本防火墙是iptables，但是centos7.0默认使用的是firewall作为防火墙

systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止firewall开机启动firewall-cmd --state #查看默认防火墙状态（关闭后显示notrunning，开启后显示running）

时间： 2024-12-29 23:46:27

hadoop学习(一) 伪分布式环境初体验的相关文章

Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver).同时,这台主机,我们就用第一章中搭建好的环境来. 我们采用与第一章中相似的步骤来操作: 运行环境搭建在前面,我们知道,运行hadoop是在linux上运行的.所以我们单机就在

Hadoop 2.x伪分布式环境搭建测试

Hadoop 2.x伪分布式环境搭建测试标签(空格分隔): hadoop hadoop,spark,kafka交流群:459898801 1,搭建hadoop所需环境卸载open JDK rpm -qa |grep java rpm -e –nodeps [java] 1.1,在/opt/目录下创建四个目录: modules/ software/ datas/ tools/ 解压hadoop-2.5.0及jdk-7u67-linux-x64.tar.gz至modules目录下. $tar -

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

Hadoop初体验：快速搭建Hadoop伪分布式环境

0.前言本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境. 对使用的系统环境作如下说明: 操作系统:CentOS 6.5 64位主机IP地址:10.0.0.131/24 主机名:leaf 用户名:root hadoop版本:2.6.5 jdk版本:1.7 可以看到,这里直接使用root用户,而不是按照大多数的教程创建一个hadoop用户来进行操作,就是为了达到快速搭建Had

构建Hadoop伪分布式环境

构建Hadoop伪分布式环境这篇文章介绍Hadoop伪分布式环境的搭建过程与原理,是个人的学习总结,以纪念在各个步骤中遇到的麻烦.踩过的坑! 这篇笔记包含这样几个内容: 配置伪分布式环境运行一个简单的作业可能遇到的问题及解决办法配置伪分布式环境本文中的内容基于Hadoop2,即MapReduce作业运行在Yarn平台之上. 打通SSH,实现无密码登陆由于Hadoop控制脚本需要登陆到集群中的Slave节点执行操作(比如,启动守护进程),如果每一次登录都输入密码,显然不是个好办法.集群

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群 --伪分布式安装准备与配置安装环境安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便.ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷.如果只是实验用途,硬盘大约预留20-30G空间. 以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http://blog.csdn.net/zjf280441589/article/details/175485

Hadoop伪分布式环境配置

Step1:关闭防火墙 service iptables stop[status] service iptables status chkconfig --list |grep iptables chkconfig iptables offStep2:修改IP (重启网卡:service network restart)Step3:修改hostname /etc/hostsStep4:SSH免密码登陆产生密钥(~/.ssh中)ssh-keygen -t rsa cd ~/

Hadoop YARN 安装-单机伪分布式环境

本文是根据Hadoop官网安装教程写的Hadoop YARN在单机伪分布式环境下的安装报告,仅供参考. 1. 安装环境如下: 操作系统:Ubuntu14.04 Hadoop版本:hadoop-2.5.0 Java版本:openjdk-1.7.0_55 2. 下载Hadoop-2.5.0,下载地址 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz 本文的$HADOOP_HOME为:/home/

Ubuntu16.04 下 hadoop的安装与配置（伪分布式环境）

注:本文有参考这篇文章 ,但因其中有部分错误,所以在实际操作中遇到了很大的困扰,于是写成了这篇文章供大家使用一.准备 1.1创建hadoop用户 $ sudo useradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell $ sudo passwd hadoop #为hadoop用户设置密码,之后需要连续输入两次密码 $ sudo adduser hadoop sudo #为hadoop用户增加管理员权限 $ su - hado