大数据学习之MapReduce基础与Yarn集群安装09

1大数据解决的问题?

海量数据的存储:hadoop->分布式文件系统HDFS

海量数据的计算:hadoop->分布式计算框架MapReduce

2什么是MapReduce?

分布式程序的编程框架,java->ssh ssm ,目的:简化开发!

是基于hadoop的数据分析应用的核心框架。

mapreduce的功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的

分布式运算程序,并发的运行在hadoop集群上。

3 MapReduce的优缺点

优点:

(1)易于编程

(2)良好的拓展性

(3)高容错性

(4)适合处理PB级别以上的离线处理

缺点:

(1)不擅长做实时计算

(2)不擅长做流式计算(mr的数据源是静态的)

(3)不支持DAG(有向图)计算(spark)

MapReduce核心编程思想图:

4自动化调度平台yarn(mr程序的运行平台)

mr程序应该在多台机器上运行启动,而且要先执行maptask,等待每个maptask都处理完成后

还要启动很多个reducetask,这个过程要用户手动调用任务不太现实,

需要一个自动化的任务调度平台->hadoop当中2.x中提供了一个分布式调度平台-YARN

Yarn任务提交流程图

5搭建yarn集群

(1)修改配置文件 yarn-site.xml

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata11</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

(2)然后复制到每台机器  $PWD 当前目录

scp yarn-site.xml [email protected]:$PWD

scp yarn-site.xml [email protected]:$PWD

(3)修改slaves文件(之前配置了就不用再配了)

然后在bigdata11上,修改hadoop的slaves文件,列入要启动nodemanager的机器

然后将bigdata11到所有机器的免密登陆配置好

(4)脚本启动yarn集群:

启动:

sbin/start-yarn.sh

停止:

sbin/stop-yarn.sh

(5)访问web端口

启动完成后,可以在windows上用浏览器访问resourcemanager的web端口:

http://bigdata11:8088

原文地址:https://www.cnblogs.com/hidamowang/p/10801337.html

时间: 2024-10-11 05:38:02

大数据学习之MapReduce基础与Yarn集群安装09的相关文章

十六:mapreduce程序在yarn集群中的调度过程

mapreduce程序在yarn集群中的调度过程: 1.客户端想ResouceManager提交一个job作业,申请运行一个MR的程序,RPC调用 2.ResourceManager返回一个由创建的jobid目录. 3.在HDFS该目录下有一个以jobid命名的目录并,写入job.xml和job分片数据,job.jar,jobConfinger 4.通知RM,job的资源文件提交完毕. 5.初始化一个任务 然后放到队列中去 6.nodemanager 和ResouceManager 保持心跳进行

大数据学习之MapReduce编程案例一单词计数 10

一:单词计数 1:单词计数总流程图 2:代码实现 1:Map阶段 package it.dawn.YARNPra.wc_hdfs; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapp

大数据学习之八——MapReduce工作机制

1.MapReduce的特点 软件框架.并行处理.可靠且容错.大规模集群.海量数据集 2.mapper和reducer mapper负责"分":把复杂的任务分解为若干个"简单的任务"来处理.简单的任务包含三层含义: (1)数据或计算的规模相对原任务要大大缩小: (2)就近计算原则,任务会分配到存放着所需数据的节点上进行计算: (3)这些小任务可以并行计算,彼此间几乎没有依赖关系. reducer负责对map阶段的结果进行汇总. 3.MapReduce的工作机制 (1

关于大数据领域各个组件打包部署到集群运行的总结(含手动和maven)(博主推荐)

对于这里的打包,总结: (1)     最简单的,也是为了适应公司里,还是要用maven,当然spark那边sbt,maven都可以.但是maven居多. Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序?(企业级水平) IDEA里如何多种方式打jar包,然后上传到集群 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) (2)     将整个项目打jar包进去,只需指定

流式大数据计算实践(2)----Hadoop集群和Zookeeper

一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2.清空数据,首先把运行单机模式后生成的数据全部清理掉 rm -rf /work/hadoop/nn/current rm -rf /work/hadoop/dn/current hdfs namenode

大数据学习之七——MapReduce简单代码实例

1.关于MapReduce MapReduce是一种可用于数据处理的编程模型,能够支持java.Python.C++等语言.MapReduce程序本质上是并行运行的,因此可以处理大规模数据集,这也是它的优势. 2.使用hadoop分析数据 hadoop提供了并行处理,我们将查询表示成MapReduce作业. MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键/值作为输入和输出,并选择它们的类型.程序员还需要定义两个函数:map函数和reduce函数. Jav

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据10小时入门Hadoop+HDFS+YARN+MapReduce+Spark视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv