Hadoop体系结构

  HDFS采用了主/从(Master/Slace)结构模型,一个HDFS集群是由一个NameDode和若干个DataNode组成的。其中NameDode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群的DataNode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看,文件被分成若干个数据块而且这若干个数据块存放在一组DataNode上。NameDode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录等,它也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写请求,并在NameDode的统一调度下进行数据块的创建、删除和复制工作。

  典型的部署场景是集群中的一台机器运行一个NameDode实例,其他机器分别运行一个DataNode实例。NameDode是所有HDFS元数据的管理者,用户需要保存的数据不会经过NameDode,而是直接流向存储数据的DataNode。

时间: 2024-12-21 17:02:23

Hadoop体系结构的相关文章

Hadoop学习笔记(一)——Hadoop体系结构

HDFS和MapReduce是Hadoop的两大核心.整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持. 一.HDFS体系结构 HDFS采用了主从(Master/Slave)结构模型.一个HDFS集群是由一个NameNode和若干个DataNode组成的.其中,NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作:集群中的DataNode管理存储的数据.HDFS典型的部署是在一个专门的机器

hadoop体系结构杂谈

hadoop体系结构杂谈 今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现,MapReduce的模型计算,到一个云盘如何实现,再到Google分布式史上那最伟大的三篇文章. 这几个名词刚问到初学者的时候肯定会一脸懵逼包括我自己,整个Hadoop家族成员很多,"势力"很庞大,下面画个图,简单概括下. 到这里本文内容已结束,下文是摘自网络上一些比较经典或者浅显

Hadoop体系结构之 Mapreduce

MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成.主节点负责调度构成一个作业的所有任务,这些任务分布在不同的不同的从节点上.主节点监视它们的执行情况,并重新执行之前失败的任务.从节点仅负责由主节点指派的任务.当一个Job被提交时,JobTracker接受到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行.JobTracker可以运行于集群中的任意一台计算机上.TaskTracker

Hadoop体系结构之 Yarn

1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster. 其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理. 1.2 YARN基本组成结构 YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,Resour

Cloudera Developer之Spark 及 Hadoop 开发员培训(CCA-175)

学习如何将数据导入到 Apache Hadoop 机群并使用 Spark.Hive.Flume.Sqoop.Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析. 详情:https://www.huodongjia.com/event-1838227010.html 在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理.通过学习掌握诸如 Spark.Hive.Flume.Sqoop 和 Impala 这样的 Hadoop

Hadoop 概述

0. 关于大数据 1. Hadoop:事实上的大数据标准 3. Hadoop 体系结构 HDFS: Hadoop 分布式文件系统 HDFS 有着高容错性特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序. MapReduce: Hadoop 编程模型,用于大规模数据集(大于1TB)的并行计算   MapReduce是一个离线处理框架,由编程模型(新旧API).运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分

大数据:Hadoop入门

大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如关系型数据库,数据仓库等.这里“大”是一个什么量级呢?如在阿里巴巴每天处理数据达到20PB(即20971520GB). 2.大数据的特点: (1.)体量巨大.按目前的发展趋势来看,大数据的体量已经到达PB级甚至EB级. (2.)大数据的数据类型多样,以非结构化数据为主,如网络杂志,音频,视屏,图片,

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大

MapReduce程序依赖的jar包

难得想写个mapreduce程序,发现已经不记得需要添加那些jar包了,网上找了一会也没发现准确的答案.幸好对hadoop体系结构略知一二,迅速试出了写mapreduce程序需要的五个jar包. 不多不少,5个包足矣--贴出来免得其朋友再走弯路 (请忽视包的版本不一致问题,是我从其他项目中东拼西凑过来的) 最后解释一下这五个包的大致功能: 1.commons-cli:主要提供了解析命令行的库 2.commons-logging:常用的日志相关库 3.guava: guava的中文意思其实是石榴嘛