大数据Hadoop相关基本概念

大数据特征(5V)

  • Velocity(快速的数据流转)
  • Veracity(精准可信赖的大数据)
  • Variety(多样的数据类型)
  • Volume(海量的数据规模)
  • Value(数据价值密度相对较低)

大数据架构

HDFS服务功能

  • NameNode
    NameNode是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副文本、文件权限),以及每个文件的块列表和块所在DataNode等。

    • NameNode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字控件(namespace)以及客户端对文件的访问。
    • NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟哪个DataNode联系,否则NameNode会成为系统的瓶颈。
    • 副本存放在哪些DataNode上由NameNode来控制,根据全局情况作出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延。
    • NameNode全权管理数据块的复制,它周期性地从集群中的每个DataNode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该DataNode节点工作正常。块状态报告包含了一个该DataNode上所有数据块的列表。
  • DataNode
    DataNode在本地文件系统存储文件快数据,以及块数据的校验和。

    • 一个数据块在DataNode以文件存储在磁盘上,包括两个文件。一个是数据本身,另一个是元数据(包括数据块的长度、块数据的校验和以及时间戳)。
    • DataNode启动后向NameNode注册,通过后周期性(1h)的向NameNode上报所有的块信息。
    • 心跳是每3s一次,心跳返回结果带有NameNode给该DataNode的命令。如复制块数据到另一台机器或者删除某个数据块。如果超过10min没有收到某个DataNode的心跳,则认为该节点不可用。
    • 集群运行中可以安全加入和退出一些机器。
  • Secondary NameNode
    Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照(心跳机制)。
  • 文件
    • 文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认:3)。
    • NameNode是主节点,存储文件的元数据。如文件名、文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表以及块所在的DataNode等等。
    • DataNode在本地文件系统存储文件快数据,以及块数据的校验和。
    • 可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。

Hadoop YARN

介绍

  1. YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave。
  2. ResourceManager负责对各个NodeManager上的资源进行统一管理和调度
  3. 当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManager启动可以占用一定资源的任务。
  4. 由于不同的ApplicationMaster被分布到不同的节点上,因此它们之间不会相互影响。
  • ResourceManager
    全局的资源管理器,整个集群中只有一个,负责集群资源的统一管理和调度分配。

    • 处理客户端请求
    • 启动/监控ApplicationMaster
    • 监控NodeManager
    • 资源分配与调度
  • ApplicationMaster
    管理一个在YARN内运行的应用程序的每个实例,负责协调来自ResourceManager的资源,开通NodeManager监视容器的执行和资源使用(CPU、内存等的资源分配)。

    • 数据切分
    • 为应用程序申请资源,并分配给内部任务
    • 任务监控与容错
  • NodeManager
    整个集群中有多个NodeManager,负责单节点资源管理和使用。
    NodeManager管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。
    定时地想RM汇报本节点上的资源使用情况和各个Container的运行状态。

    • 单个节点上的资源管理
    • 处理来自ResourceManager的命令
    • 处理来自ApplicationMaster的命令
  • Container
    YARN中的资源抽象,封装某个节点上多维资源,如内存、CPU、磁盘、网络等。当AM向RM申请资源时,RM向AM返回的资源便是用COntainer表示的。
    YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。

    • 对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息

总结

  • 资源调度和资源隔离是YARN作为一个资源管理系统,最重要和最基础的两个功能。资源调度由ResourceManager完成,而资源隔离由各个NM实现。
  • ResourceManager将某个Nodemanager上资源分配给任务(即“资源调度”)后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提供基础的保障,即“资源隔离”。
  • 资源通常指内存、CPU和IO这三种资源。Hadoop YARN同时支持内存和CPU两种资源的调度。
  • 内存资源的多少会决定任务的生死,如果内存不够,任务可能会运行失败。相比之下,CPU资源则不同,它只决定任务运行的快慢,不会对任务的生死产生影响。

MapReduce

  • 将计算过程分为两个阶段:Map和Reduce

    • Map阶段并行处理输入数据
    • Reduce阶段对Map结果进行汇总
  • Shuffle连接Map和Reduce两个阶段
    • Map Task将数据写到本地磁盘
    • Reduce Task从每个Map Task上读取一份数据
  • 仅适合离线批处理
    • 具有很好的容错性和扩展性
    • 适合简单的批处理任务
  • 缺点明显
    • 启动开销大,过多使用磁盘导致效率低下等

原文地址:https://www.cnblogs.com/yin1361866686/p/11713860.html

时间: 2024-11-10 15:27:03

大数据Hadoop相关基本概念的相关文章

大数据科学相关岗位,需要具备哪些数学基础?

在不久的将来,大智时代一定会彻底走入我们的生活,多智时代专注于人工智能.大数据.云计算和物联网的入门学习和科谱资讯,让我们一起携手,引领人工智能的未来 数据科学相关岗位要具备哪些数学基础?想成为一名顶级的数据科学家还需要掌握其他领域的知识,比如编程能力.具有一定的商业头脑,以及对数据的独特分析和好奇心态. 有时候,作为一名数据科学家(甚至是团队的初级分析师),你必须全心全意地学习那些基础的数学知识,或者正确地应用这些技术,有时候你可以通过使用一些API或者拿来即用的算法完成相关任务.大数据科学相

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

大数据服务相关站点整理

今天突然来了兴致,想要看看目前有哪些大数据服务相关站点,百度'大数据'翻了十来页,找出了以下站点,[xxx(分类)]是我根据其网站性质定义的标签,如有不妥之处,勿喷. 资讯类: 中国大数据资料和交流中心,[大数据资讯.大数据论坛] http://www.thebigdata.cn/ 紫数网,大数据服务平台,大数据门户[大数据资讯.问答社区] http://www.zishu010.com/ 36大数据,专注大数据应用与商业:[大数据资讯] http://www.36dsj.com/ 大数据中国,

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择 使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

14周事情总结-机器人-大数据hadoop

14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查顺序:1.程序(不过程序比较简单)不是这上面的问题 2.检查电路问题(电路设计,线比较脆弱,焊接的也不是很好,最主要不知道板子的完整性) 3.加了块电源可以动舵机了,但之后实验出现莫名的问题 4.最终解决办法:改变线,将舵机的线又连接杜邦线(12) -------------------------

大数据开发相关知识

接触大数据开发相关内容 原文地址:https://www.cnblogs.com/moss-yang/p/8469742.html

搭建大数据hadoop完全分布式环境遇到的坑

搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -format,报错误信息:hadoop: command not found 本文网址:https://www.cnblogs.com/SH170706/p/10312667.html 2. 原文地址:https://www.cnblogs.com/SH170706/p/10312678.html