2，Hadoop部署

前期准备

（1）JAVA_HOME：因为Hadoop的配置文件中依赖 $JAVA_HOME。修改/etc/profile文件。

（2）hostname：修改主机名，方便管理。/etc/sysconfig/network。

（3）ip hostname：方便管理，hadoop默认是使用hostname作为ip的域名。/etc/hosts。

（4）iptables stop：关闭防火墙，由于集群需要用到的端口比较多，所以最好是先关掉。7版本：systemctl stop firewalld

（5）visudo：赋予sudo权限，CentOS中其他用户都没有sudo权限。/etc/sudoers。

（6）chown：更改hadoop文件夹的所有者。sudo chown -R user:group hadoop。

（7）验证：在hadoop根目录输入 bin/hadoop，验证是否配置正常。

（8）hadoop-env.sh添加 JAVA_HOME变量。

1，单机部署

··· 以wordcount为例：

（1）输入数据：在根目录下创建 wcinput文件夹，并添加word.txt文件。

（2）执行命令：bin/hadoop jar share/hadoop/mapreduce/......jar wordcount wcinput wcoutput # 注意：根目录不能存在wcoutput目录，必须由hadoop创建。

（3）查看输出：cat wcoutput/part-00000。

2，伪分布式部署

··· 以wordcount为例：

（1）修改core-site.xml 文件

<!-- 用来指定默认文件系统的名称以及NameNode服务的主机和端口号

注意:下面的mini主机名要改成你本机的实际的hostname -->

<name>fs.defaultFS</name>

<value>hdfs://hostname:8020</value>

</property>

<!-- 配置hadoop临时保存目录

注意:目录名和你安装的目录名要对应 -->

<name>hadoop.tmp.dir</name>

<value>/opt/app/hadoop/data/tmp</value>

</property>

</configuration>

（2）修改hdfs-site.xml文件

<!-- 用来指定Hadoop中每一个数据的副本数,默认都是3,但是在伪分布式中只有一个节点,所以这个

值必须设置为1 -->

<name>dfs.replication</name>

</property>

</configuration>

（3）对HDFS进行格式化

bin/hadoop namendoe -format

注意：只可以格式化一次，如果再次格式化，需要删除配置的临时文件目录 data文件夹

（4）启动NameNode和DataNode进程

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

注意：

启动NameNode时一定要联网。

可以通过jps查看进程是否启动。

可以通过web访问HDFS（http://主机IP(或域名):50070/explorer.html#

（5）上传文件到HDFS

创建文件夹：bin/hdfs dfs -mkdir /input

添加文件到HDFS的input目录：bin/hdfs dfs -put input.txt /input

查看是否上传成功：bin/hdfs dfs -ls /input

（6）运行与查看

运行：bin/hadoop jar share/..../....jar wordcount /input /output

查看结果：bin/hdfs dfs -cat /output/par*

··· 在YARN上运行MapReduce

（1）复制一份 mapred-site.xml文件

cp mapred-site.xml.template mapred-site.xml

（2）配置 MapReduce的计算框架为yarn

<name>mapreduce.framework.name</name>

</property>

（3）配置yarn-site.xml文件

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

（4）启动

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

或者：start-yarn.sh

通过：http://hostname:8088 查看yarn上执行的程序。

··· 配置历史服务器和日志聚集：

（1）配置mapred-site.xml文件

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

（2）启动

sbin/mr-jobhistory-daemon.sh start historyserver # 启动历史服务器

查看：http://hadoop11:19888

（3）日志聚集

作用：在MR任务运行结束后，将相关的运行日志上传到HDFS文件系统中。

配置yarn-site.xml文件：

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

配置完后需要重启历史服务器和 yarn

··· 注意事项：

· start-dfs.sh 可以一次启动NameNode、DataNode和 SecondaryNameNode，但是需要输入三次密码，可以通过设置本地免密登录，来面输密码；ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected](本地主机名)。

· start-yarn.sh 可以一次启动 resourcemanager和nodemanager。

3，完全分布式

··· 集群规划

hadoop11	hadoop22	hadoop33
NameNode	ResourceManager	SecondaryNameNode
DataNode	DataNode	DataNode
NodeManager	NodeManager	NodeManager
		HistoryServer

··· 5个配置文件

· core-site.xml：配置hadoop的文件系统为hdfs以及地址、临时文件夹位置。

· hdfs-site.xml：配置SecondaryNameNode的主机地址、NameNode的web地址、关闭文件系统的权限控制。

· yarn-site.xml：配置ResourceManager主机的位置、shuffle服务、开启日志聚集功能、日志保存的时间。

· mapred-site.xml：配置MapReduce的计算框架为yarn、MapReduce历史记录地址、历史记录web地址。

· slaves：在该文件中添加从节点的主机名(注意不能有空格)。

具体配置文件提取码：0gkn

··· 启动

· 复制配置文件：

将配置文件复制到其他节点上。scp -r /opt/app/hadoop27/etc/hadoop/ hadoop22:/opt/app/hadoop27/etc/

· 初始化NameNode节点：

注意：必须删除 /tmp和 hadoop根目录中的 data/tmp文件，否则无法初始化

在部署NameNode的节点上初始化NameNode。hadoop namenode -format

· 启动守护进程

在部署NameNode的节点上启动 HDFS。start-hdfs.sh

在部署resourcemanager的节点上启动YARN。start-yarn.sh

原文地址：https://www.cnblogs.com/shendeng23/p/12375161.html

时间： 2024-11-01 10:11:53

2，Hadoop部署的相关文章

Hadoop部署实践:   离线安装 CDH5.1   (待完成)

配置主机映射关系 [[email protected] ~]$ cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 10.15.5.200 master.hadoop 10.15.5.201 slave01.hadoop 10.15.5.202 slave02.hadoop 10.15.5.203 slave03.hadoop 如上有4台主机,每台hosts都已

Hadoop部署 Ubuntu14.04

Hadoop部署 Ubuntu14.04 Hadoop有3种部署方式. 单机模式,伪分布模式,完全分布式(集群,3个节点). 一.单机模式 1 基础环境 1.1创建hadoop用户组 sudo addgroup hadoop 1.2创建hadoop用户 sudo adduser -ingroup hadoop hadoop 1.3为hadoop用户添加权限输入:sudo gedit /etc/sudoers 回车,打开sudoers文件给hadoop用户赋予和root用户同样的权限 1.4用

hadoop部署中遇到ssh设置的问题

尽管hadoop和一些培训视频课程上讲分布式部署比较详细,但是在部署时仍遇到了一些小问题,在此mark一下: 1.linux的namenode主机上安装了ssh,也启动了ssh,并且执行了: /etc/init.d/iptables status 显示: Firewall is stopped. 但是,执行ssh localhost时仍然报“ssh: connect to host localhost port 22: Connection refused”这个错误: 解决方法: 联系系统管理员

蓝的成长记——追逐DBA（14）：难忘的“云”端，起步的hadoop部署

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/44050117 [简介] 个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感.眼界与技术的变化与成长.敏感信息均以其它形式去掉,不会泄露任何企业机密,纯为技术分享. 创作灵感源于对自己的自省和记录.若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已. 欢迎拍砖

Hadoop学习笔记三：分布式hadoop部署

前语:如果看官是个比较喜欢使用现成软件的,比较推荐使用quickhadoop,这个使用参照官方文档即可,是比较傻瓜式的,这里不做介绍.本文主要是针对自己部署分布式hadoop. 1.修改机器名 [[email protected] root]# vi /etc/sysconfig/network 将HOSTNAME=*** 一栏改成适当的名称,笔者两台机器采用HOSTNAME=Hadoop00,HOSTNAME=Hadoop01这种方式. 2.修改IP,网关,掩码等 vim /etc/sysco

hadoop 部署在centos 7 上

一.准备工作准备3台centOS 7 关闭防火墙: systemctl stop firewalld.service 禁用防火墙:systemctl disable firewalld.service 查看防火墙状态firewall-cmd --state 重启 reboot 二.实现三台机器ssh免密码登录首先,你要确保知道你的三台机子的名称和ip比如:我的三台分别是 10.25.0.165 hadoop0110.25.0.221 hadoop0210.25.0.232 hadoop031.检

hadoop 部署之jdk的安装

第一步 jdk的安装 1.将下载好的jdk放在要安装的目录下(我的目录是:/root/hadoop/opt/cloud,使用WinSCP直接拖到目标目录) 2.在目标目录解压 sudo tar xvf jdk-7u45-linux-x64.tar.gz 3.配置环境变量这里我使用的是在命令的目录下使用命令: [[email protected] cloud]# /bin/vi /etc/profile 使用该命令的好处是:即使配置的环境命令有问题,配错误了,也能够再次打开配置环境变量的文件,进

Hadoop 部署之环境准备(一)

一.软硬件规划 ID 主机类型主机名 IP 应用软件操作系统硬件配置 1 物理机 namenode01 192.168.1.200 jdk1.8.0_171.hadoop-2.7.3.hive-2.3.3.hbase-1.2.6.zookeeper-3.4.10.spark-2.3.1 CentOS7.4 6核CPU.8G内存.250存储 2 物理机 datanode01 192.168.1.201 jdk1.8.0_171.hadoop-2.7.3.hive-2.3.3.hbase-1.

Hadoop 部署之 Spark (六)

一.Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架.Spark拥有hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算--Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapReduce 在计算过程中只有map 和reduce 两个阶段,处理之后就结束了,而在Spark的计算模型中,可以分为n