什么是NameNode和DataNode?他们是如何协同工作的?

[学习笔记]

什么是NameNode和DataNode?他们是如何协同工作的? 马克-to-win @ 马克java社区:一个HDFS集群包含一个NameNode和若干的DataNode(start-dfs命令就启动了NameNode和DataNode), NameNode是管理者,主要负责管理hdfs文件系统,具体包括namespace命名空间管理(即目录结构)和block管理。DataNode主 要用来存储数据文件,因为文件可能巨大无比(大数据,大于1TB),HDFS将一个文件分割成一个个的block,这些block可能存储在一个DataNode上或 者多个DataNode上。DataNode负责实际的底层的文件的读写。马克-to-win @ 马克java社区:举个例子:如果客户端client程序发起了读hdfs上的某个文件的指令, NameNode首先将找到这个文件对应的block,然后NameNode告知client,这些block数据在哪些DataNode上,之后, client将直接和DataNode交互。

文章转载自原文:https://blog.csdn.net/mark_to_win/article/details/90240724

原文地址:https://www.cnblogs.com/haima1949/p/10988796.html

时间: 2024-10-10 00:01:18

什么是NameNode和DataNode?他们是如何协同工作的?的相关文章

HDFS体系结构(NameNode、DataNode详解)

hadoop项目地址:http://hadoop.apache.org/ 分布式文件系统概述: 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点脱机,整体

Hadoop介绍-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker

Hadoop是一个能够对大量数据进行分布式处理的软体框架,实现了Google的MapReduce编程模型和框架,能够把应用程式分割成许多的 小的工作单元,并把这些单元放到任何集群节点上执行.在MapReduce中,一个准备提交执行的应用程式称为「作业(job)」,而从一个作业划分出 得.运行于各个计算节点的工作单元称为「任务(task)」.此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了 高吞吐率的数据读写. 在分布式存储和分布式计算方面,Hadoop都是用

HDFS中的NameNode和DataNode

HDFS集群中以Master-Slave模式运行,主要有两类节点:一个Namenode节点(即master)和多个Datanode节点.Namenode管理文件系统的Namespace.他维护着文件系统树以及文件树中所有的文件和文件夹的元数据. hdfs架构图: Namenode: Namenode管理文件系统的Namespace.它维护着文件系统树以及文件树中所有的文件和文件夹的元数据(Metadata).管理这些信息的文件有两个,分别是Namespace镜像文件(Namespace imag

NameNode和DataNode间的联系

本文内容还是转载自--吴超沉思录里的,还是挺佩服吴超老师的O(∩_∩)O~ 以下介绍NameNode和DataNode所扮演的角色: (1)NameNode NameNode的作用是管理文件目录结构,是管理数据节点的.NameNode维护两套数据:一套是文件目录与数据块之间的关系,另一套是数据块与节点间的关系.前一套是静态的,是存放在磁盘上的,通过fsimage和edits文件来维护:后一套数据是动态的,不持久化到磁盘,每当集群启动的时候,会自动建立这些信息. (2)DataNode DataN

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

1)NameNode.DataNode和Client NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间.集群配置信息和存储块的复制等.NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息.每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等. DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNod

04 namenode和datanode

namenode元数据管理 1.什么是元数据? hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置<datanode>) 2.元数据由谁负责管理? namenode 3.namenode把元数据记录在哪里? namenode的实时的完整的元数据存储在内存中: namenode还会在磁盘中(dfs.namenode.name.dir)存储内存元数据在某个时间点上的镜像文件: namenode会把引起元数据变化的客户端操作记录在edits日志文件中: namenode主要

Hadoop中NameNode、DataNode和Client三者之间的通信方式是什么?怎样进行合作?

一直没有重视三者之间的通信问题,在此整理一下提问:datanode之间有没有交互?Hadoop安装时ssh如何配置? 1.背景知识: 在Hadoop系统中,master/slaves/client的对应关系是:master---namenode:slaves---datanode:client---dfsclient:通信方式简单地讲:client和namenode之间是通过rpc通信:datanode和namenode之间是通过rpc通信:client和datanode之间是通过简单的sock

hadoop学习笔记--NameNode和DataNode以及容错处理

概念: HDFS会把一个很大的文件分块(与传统的文件系统类似),存放在不同的DataNode上.不过这个块是个逻辑概念,比较大,默认是64M. Hadoop以"管理者-工作者"模式运行.NameNode就是管理者,它保存了文件系统中所有文件以及目录信息.也记录了每个文件的分块信息.但这些分块具体在哪些机器上存储则由DataNode自己上报. 容错: NameNode的容错: 所有的文件访问都要通过NameNode来进行,所以NameNode至关重要.一旦NameNode发生毁坏,则整个

重新格式化hadoop的namenode导致datanode无法启动的最简单解决办法

一般namenode只格式化一次,重新格式化不仅会导致之前的数据都不可用,而且datanode也会无法启动.在datanode日志中会有类似如下的报错信息: java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-root/dfs/data: namenode clusterID = CID-7f25bc20-e822-4b15-9063-4da48884cb60; datanode clusterID = CID-911d3bd8