2,Hadoop部署

前期准备

(1)JAVA_HOME:因为Hadoop的配置文件中依赖 $JAVA_HOME。修改/etc/profile文件。

(2)hostname:修改主机名,方便管理。/etc/sysconfig/network。

(3)ip hostname:方便管理,hadoop默认是使用hostname作为ip的域名。/etc/hosts。

(4)iptables stop:关闭防火墙,由于集群需要用到的端口比较多,所以最好是先关掉。7版本:systemctl stop firewalld

(5)visudo:赋予sudo权限,CentOS中其他用户都没有sudo权限。/etc/sudoers。

(6)chown:更改hadoop文件夹的所有者。sudo chown -R user:group hadoop。

(7)验证:在hadoop根目录输入 bin/hadoop,验证是否配置正常。

(8)hadoop-env.sh添加 JAVA_HOME变量。

1,单机部署

··· 以wordcount为例:

(1)输入数据:在根目录下创建 wcinput文件夹,并添加word.txt文件。

(2)执行命令:bin/hadoop jar share/hadoop/mapreduce/......jar wordcount wcinput wcoutput   # 注意:根目录不能存在wcoutput目录,必须由hadoop创建。

(3)查看输出:cat wcoutput/part-00000。

2,伪分布式部署

··· 以wordcount为例:

(1)修改core-site.xml 文件

<configuration>

<!-- 用来指定默认文件系统的名称以及NameNode服务的主机和端口号

注意:下面的mini主机名要改成你本机的实际的hostname -->

<property>

<name>fs.defaultFS</name>

<value>hdfs://hostname:8020</value>

</property>

<!-- 配置hadoop临时保存目录

注意:目录名和你安装的目录名要对应 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/app/hadoop/data/tmp</value>

</property>

</configuration>

(2)修改hdfs-site.xml文件

<configuration>

<!-- 用来指定Hadoop中每一个数据的副本数,默认都是3,但是在伪分布式中只有一个节点,所以这个

值必须设置为1 -->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

(3)对HDFS进行格式化

bin/hadoop namendoe -format

注意:只可以格式化一次,如果再次格式化,需要删除配置的临时文件目录 data文件夹

(4)启动NameNode和DataNode进程

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

注意:

启动NameNode时一定要联网。

可以通过jps查看进程是否启动。

可以通过web访问HDFS(http://主机IP(或域名):50070/explorer.html#

(5)上传文件到HDFS

创建文件夹:bin/hdfs dfs -mkdir /input

添加文件到HDFS的input目录:bin/hdfs dfs -put input.txt  /input

查看是否上传成功:bin/hdfs dfs -ls /input

(6)运行与查看

运行:bin/hadoop  jar  share/..../....jar  wordcount  /input  /output

查看结果:bin/hdfs dfs -cat /output/par*

··· 在YARN上运行MapReduce

(1)复制一份 mapred-site.xml文件

cp mapred-site.xml.template  mapred-site.xml

(2)配置 MapReduce的计算框架为yarn

<!-- 配置MapReduce的计算框架,可以是local,classic,yarn,如果不配置,默认是local -->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

(3)配置yarn-site.xml文件

<!-- 设置该属性通知NodeManager需要实现名为mapreduce.shuffle的辅助服务-->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

(4)启动

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

或者:start-yarn.sh

通过:http://hostname:8088 查看yarn上执行的程序。

··· 配置历史服务器和日志聚集:

(1)配置mapred-site.xml文件

<!-- 配置历史服务器的地址 -->

<property>

<name>mapreduce.jobhistory.address</name>

<value>mini:10020</value>

</property>

<!-- 配置历史服务器的web展示地址,以及端口号 -->

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>mini:19888</value>

</property>

(2)启动

sbin/mr-jobhistory-daemon.sh start historyserver  # 启动历史服务器

查看:http://hadoop11:19888

(3)日志聚集

作用:在MR任务运行结束后,将相关的运行日志上传到HDFS文件系统中。

配置yarn-site.xml文件:

<!-- 配置日志聚集属性-->

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

<!-- 配置日志聚集的时间 (7天) -->

<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>

配置完后需要 重启 历史服务器和 yarn

··· 注意事项:

· start-dfs.sh 可以一次启动NameNode、DataNode和 SecondaryNameNode,但是需要输入三次密码,可以通                    过设置本地免密登录,来面输密码;ssh-copy-id -i ~/.ssh/id_rsa.pub  [email protected](本地主机名)。

· start-yarn.sh 可以一次启动 resourcemanager和nodemanager。

3,完全分布式

··· 集群规划


hadoop11

hadoop22

hadoop33

NameNode
ResourceManager SecondaryNameNode

DataNode

DataNode

DataNode
NodeManager
NodeManager

NodeManager

 

 

HistoryServer

··· 5个配置文件

· core-site.xml:配置hadoop的文件系统为hdfs以及地址、临时文件夹位置。

· hdfs-site.xml:配置SecondaryNameNode的主机地址、NameNode的web地址、关闭文件系统的权限控制。

· yarn-site.xml:配置ResourceManager主机的位置、shuffle服务、开启日志聚集功能、日志保存的时间。

· mapred-site.xml:配置MapReduce的计算框架为yarn、MapReduce历史记录地址、历史记录web地址。

· slaves:在该文件中添加从节点的主机名(注意不能有空格)。

具体配置文件 提取码:0gkn

··· 启动

· 复制配置文件:

将配置文件复制到其他节点上。scp -r /opt/app/hadoop27/etc/hadoop/   hadoop22:/opt/app/hadoop27/etc/

· 初始化NameNode节点:

注意:必须删除 /tmp和 hadoop根目录中的 data/tmp文件,否则无法初始化

在部署NameNode的节点上初始化NameNode。hadoop namenode -format

· 启动守护进程

在部署NameNode的节点上启动 HDFS。start-hdfs.sh

在部署resourcemanager的节点上启动YARN。start-yarn.sh

原文地址:https://www.cnblogs.com/shendeng23/p/12375161.html

时间: 2024-11-01 10:11:53

2,Hadoop部署的相关文章

Hadoop部署实践: &nbsp; 离线安装 CDH5.1 &nbsp; (待完成)

配置主机映射关系 [[email protected] ~]$ cat /etc/hosts 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 10.15.5.200 master.hadoop 10.15.5.201 slave01.hadoop 10.15.5.202 slave02.hadoop 10.15.5.203 slave03.hadoop 如上有4台主机,每台hosts都已

Hadoop部署 Ubuntu14.04

Hadoop部署 Ubuntu14.04 Hadoop有3种部署方式. 单机模式,伪分布模式,完全分布式(集群,3个节点). 一.单机模式 1 基础环境 1.1创建hadoop用户组 sudo addgroup hadoop 1.2创建hadoop用户 sudo adduser -ingroup hadoop hadoop 1.3为hadoop用户添加权限 输入:sudo gedit /etc/sudoers 回车,打开sudoers文件 给hadoop用户赋予和root用户同样的权限 1.4用

hadoop部署中遇到ssh设置的问题

尽管hadoop和一些培训视频课程上讲分布式部署比较详细,但是在部署时仍遇到了一些小问题,在此mark一下: 1.linux的namenode主机上安装了ssh,也启动了ssh,并且执行了: /etc/init.d/iptables status 显示: Firewall is stopped. 但是,执行ssh localhost时仍然报“ssh: connect to host localhost port 22: Connection refused”这个错误: 解决方法: 联系系统管理员

蓝的成长记——追逐DBA(14): 难忘的“云”端,起步的hadoop部署

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/44050117 [简介] 个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感.眼界与技术的变化与成长.敏感信息均以其它形式去掉,不会泄露任何企业机密,纯为技术分享. 创作灵感源于对自己的自省和记录.若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已. 欢迎拍砖

Hadoop学习笔记三:分布式hadoop部署

前语:如果看官是个比较喜欢使用现成软件的,比较推荐使用quickhadoop,这个使用参照官方文档即可,是比较傻瓜式的,这里不做介绍.本文主要是针对自己部署分布式hadoop. 1.修改机器名 [[email protected] root]# vi /etc/sysconfig/network 将HOSTNAME=*** 一栏改成适当的名称,笔者两台机器采用HOSTNAME=Hadoop00,HOSTNAME=Hadoop01这种方式. 2.修改IP,网关,掩码等 vim /etc/sysco

hadoop 部署在centos 7 上

一.准备工作准备3台centOS 7 关闭防火墙: systemctl stop firewalld.service 禁用防火墙:systemctl disable firewalld.service 查看防火墙状态firewall-cmd --state 重启 reboot 二.实现三台机器ssh免密码登录首先,你要确保知道你的三台机子的名称和ip比如:我的三台分别是 10.25.0.165 hadoop0110.25.0.221 hadoop0210.25.0.232 hadoop031.检

hadoop 部署 之jdk的安装

第一步 jdk的安装 1.将下载好的jdk放在要安装的目录下(我的目录是:/root/hadoop/opt/cloud,使用WinSCP直接拖到目标目录) 2.在目标目录解压 sudo tar xvf jdk-7u45-linux-x64.tar.gz 3.配置环境变量 这里我使用的是在命令的目录下使用命令: [[email protected] cloud]# /bin/vi /etc/profile 使用该命令的好处是:即使配置的环境命令有问题,配错误了,也能够再次打开配置环境变量的文件,进

Hadoop 部署之环境准备(一)

一.软硬件规划 ID 主机类型 主机名 IP 应用软件 操作系统 硬件配置 1 物理机 namenode01 192.168.1.200 jdk1.8.0_171.hadoop-2.7.3.hive-2.3.3.hbase-1.2.6.zookeeper-3.4.10.spark-2.3.1 CentOS7.4 6核CPU.8G内存.250存储 2 物理机 datanode01 192.168.1.201 jdk1.8.0_171.hadoop-2.7.3.hive-2.3.3.hbase-1.

Hadoop 部署之 Spark (六)

一.Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架.Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算--Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapReduce 在计算过程中只有map 和reduce 两个阶段,处理之后就结束了,而在Spark的计算模型中,可以分为n