hadoop学习(一) 伪分布式环境初体验

前期准备
1、创建hadoop相关目录(便于管理)
2、给/opt/*目录赋予hadoop用户及所有组权限
sudo chrown -R hadoop:hadoop /opt/*
3、JDK安装与配置
配置HDFS/YARN/MAMREDUCE
1、解压hadoop
tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/
(删除doc下的帮助文档,节省空间)
rm -rf /opt/modules/hadoop-2.5.0/share/doc/
2、配置hadoop-env.sh
cd /opt/modules/hadoop-2.5.0/etc/hadoop
vi hadoop-env.shexport JAVA_HOME=/usr/local/jdk1.7.0_67

验证是否配置成功
/opt/modules/hadoop-2.5.0/bin/hadoop
3、配置core-site.xml
<!--指定namenode所在机器的位置和访问交互端口号--><property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop.lianwei.org(主机名):8020</value></property><!--指定Hadoop运行时的临时目录--><property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/modules/hadoop-2.5.0/data/tmp</value></property>
4、配置slaves
vi /opt/module/hadoop-2.5.0/etc/hadoop/slaves
将内容改为指定datanode所在机器位置:hadoop.lianwei.org
5、配置hdfs-site.xml
vi /opt/module/hadoop-2.5.0/etc/hadoop/hdfs-site.xml<!--指定系统中文件的块的副本个数--><property>
    <name>dfs.replication</name>
    <value>1</value>(分布式中默认是3个)</property>
6、格式化namenode
bin/hdfs namenode -format
注:会在hadoop.tmp.dir下生成dfs/name/current/fsimage_*(镜像文件)
7、启动hdfs
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanodejps(查看是否启动成功)
8、浏览器查看web控制台
http://hadoop.lianwei.org:50070

9、配置yarn-site.xml
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value></property>指定resorcemanager所在机器的位置:<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop.lianwei.org</value></property>
10、启动resourcemanager、nodemanager
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
11、通过浏览器查看YARN WEB-UI界面
http://hadoop.lianwei.org:8088

12、配置mapred-site.xml
指定mapreduce运行在YARN上<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value></property>
13、测试wordcount案例运行
在HDFS中创建待处理文件目录
bin/hdfs dfs -mkdir -p /user/lianwei/mapreduce/examples/wordcount/input
上传待处理文件到HDFS中的待处理目录中
bin/hdfs dfs -put /opt/data/lv.input /user/lianwei/mapreduce/examples/wordcount/input
执行命令
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/lianwei/mapreduce/examples/wordcount/input /user/lianwei/mapreduce/examples/wordcount/output(输出目录不能手动创建且不能存在,否则会覆盖)
14、在WEB UI中查看运行结果

注意事项:

1、centos之前的版本防火墙是iptables,但是centos7.0默认使用的是firewall作为防火墙

systemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止firewall开机启动firewall-cmd --state #查看默认防火墙状态(关闭后显示notrunning,开启后显示running)
时间: 2024-12-29 23:46:27

hadoop学习(一) 伪分布式环境初体验的相关文章

Hadoop学习笔记(3)——分布式环境搭建

Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver).同时,这台主机,我们就用第一章中搭建好的环境来. 我们采用与第一章中相似的步骤来操作: 运行环境搭建 在前面,我们知道,运行hadoop是在linux上运行的.所以我们单机就在

Hadoop 2.x伪分布式环境搭建测试

Hadoop 2.x伪分布式环境搭建测试 标签(空格分隔): hadoop hadoop,spark,kafka交流群:459898801 1,搭建hadoop所需环境 卸载open JDK rpm -qa |grep java rpm -e –nodeps [java] 1.1,在/opt/目录下创建四个目录: modules/ software/ datas/ tools/ 解压hadoop-2.5.0及jdk-7u67-linux-x64.tar.gz至modules目录下. $tar -

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件 添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境. 对使用的系统环境作如下说明: 操作系统:CentOS 6.5 64位 主机IP地址:10.0.0.131/24 主机名:leaf 用户名:root hadoop版本:2.6.5 jdk版本:1.7 可以看到,这里直接使用root用户,而不是按照大多数的教程创建一个hadoop用户来进行操作,就是为了达到快速搭建Had

构建Hadoop伪分布式环境

构建Hadoop伪分布式环境 这篇文章介绍Hadoop伪分布式环境的搭建过程与原理,是个人的学习总结,以纪念在各个步骤中遇到的麻烦.踩过的坑! 这篇笔记包含这样几个内容: 配置伪分布式环境 运行一个简单的作业 可能遇到的问题及解决办法 配置伪分布式环境 本文中的内容基于Hadoop2,即MapReduce作业运行在Yarn平台之上. 打通SSH,实现无密码登陆 由于Hadoop控制脚本需要登陆到集群中的Slave节点执行操作(比如,启动守护进程),如果每一次登录都输入密码,显然不是个好办法.集群

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群 --伪分布式安装 准备与配置安装环境 安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便.ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷.如果只是实验用途,硬盘大约预留20-30G空间. 以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http://blog.csdn.net/zjf280441589/article/details/175485

Hadoop伪分布式环境配置

Step1:关闭防火墙   service iptables stop[status]  service iptables status  chkconfig --list |grep iptables  chkconfig iptables offStep2:修改IP   (重启网卡:service network restart)Step3:修改hostname  /etc/hostsStep4:SSH免密码登陆  产生密钥(~/.ssh中)ssh-keygen -t rsa   cd ~/

Hadoop YARN 安装-单机伪分布式环境

本文是根据Hadoop官网安装教程写的Hadoop YARN在单机伪分布式环境下的安装报告,仅供参考. 1. 安装环境如下: 操作系统:Ubuntu14.04 Hadoop版本:hadoop-2.5.0 Java版本:openjdk-1.7.0_55 2. 下载Hadoop-2.5.0,下载地址 http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.0/hadoop-2.5.0.tar.gz 本文的$HADOOP_HOME为:/home/

Ubuntu16.04 下 hadoop的安装与配置(伪分布式环境)

注:本文有参考 这篇文章 ,但因其中有部分错误,所以在实际操作中遇到了很大的困扰,于是写成了这篇文章供大家使用 一.准备 1.1创建hadoop用户 $ sudo useradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell $ sudo passwd hadoop #为hadoop用户设置密码,之后需要连续输入两次密码 $ sudo adduser hadoop sudo #为hadoop用户增加管理员权限 $ su - hado