三、HDFS相关概念

1、HDFS中NameNode的启动过程:

步骤1:namenode启动时,首先将fsimage(镜像)载入内存,并执行editlog日志的各项操作

步骤2:内存中建立起元数据映射,则创建一个新的fsimage和空的editlog

步骤3:等待datanode注册与发送数据块信息

2、HDFS中NameNode元数据本地磁盘存储目录如何配置以及DataNode存储数据的本地磁盘目录如何配置

1)NameNode元数据存储目录配置

<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/dfs/name</value>
</property>

2)DataNode元数据存储目录配置

<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/dfs/data</value>
</property>

3、存储在HDFS上的文件的存储机制及数据安全性如何保证

1)HDFS存储机制

hdfs采用主从架。namenode是元数据节点,该节点用来管理文件系统中的命名空间;datanode是数据节点,真正存储数据的地方,以数据块的形式进行存储,每个数据块大小默认为128M。

2)数据安全性

NameNode在启动的时候首先进入安全模式,如果 datanode 丢失的block达到一定的比例(默认为0.999),则系统会一直处于安全模式状态即只读状态,当超过这个阈值,才可以离开安全模式。

时间: 2024-10-13 17:22:04

三、HDFS相关概念的相关文章

hadoop(三):hdfs 机架感知

client 向 Active NN 发送写请求时,NN为这些数据分配DN地址,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响.一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC,这样可以防止整个机架.甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之间.甚至IDC之间传输,增加了副本写的代价,是否有较优的方案来解决这个问题呢? 目录: 常用策略 机架配置 分配原理 常用策略: hdfs 在缺省配置下副本数是3个,通常的策略是: 第一个副本放在和C

hdfs 相关概念

一. HDFS的NameNode 的启动流程 二. HDFS中NameNode元数据本地磁盘存储目录如何配置DataNode存储数据的本地磁盘目录如何配置(哪里配置,属性名称). 三: 存储在HDFS上的文件,存储机制及数据安全性如何保证. 一. HDFS的NameNode 的启动流程 1.Hadoop 在格式化文件系统HDFS 时候会默认生成一个fsimage 文件,启动时会将 fsimage 镜像加载到内存,然后replay 去编辑edit_log 默认edit_log 为空的,. 2.当客

HDFS相关概念

一:hdfs设计原理 负载均衡,考虑分布式计算 -->block机制 二:block默认大小为128m,[hadoop2.0版本以上],之前都是64m. 原因:默认传输效率10M/s 寻址时间占传输时间的1% 寻址时间为10ms 总结:block是物理的,真正存储的位置在本地磁盘{hadoop.tmp.dir}/dfs/data, block是针对文件说的,按照块号存储的物理文件,复本是针对块说的. 三:WebUI:50070描述 Startup Progress页[集群开启的过程] -->加

Hadoop学习笔记(三) ——HDFS

参考书籍:<Hadoop实战>第二版 第9章:HDFS详解 1. HDFS基本操作 @ 出现的bug信息 @[email protected] WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable @[email protected] WARN hdfs.DFSClient: DFSInpu

大数据学习第二章、HDFS相关概念

1.HDFS核心概念: 块 (1)为了分摊磁盘读写开销也就是大量数据间分摊磁盘寻址开销 (2)HDFS块比普通的文件块大很多,HDFS默认块大小为64MB,普通的只有几千kb 原因:1.支持面向大规模数据存储 2.降低分布式节点的寻址开销 好处:1.支持大规模文件存储(可以将一个大的文件进行切割,放到不同的机器上去存储,这样就可以突破单机存储上限) 2.简化系统设计 3.适合数据备份 两大核心组件: 1.名称节点(NameNode相当于数据目录) 底层FsImage和各项操作EditLog组成最

Hadoop 新生报道(三) hadoop基础概念

一.NameNode,SeconderyNamenode,DataNode NameNode,DataNode,SeconderyNamenode都是进程,运行在节点上. 1.NameNode:hadoop的主节点, 保存HDFS的元数据信息 1.fsimage - 它是在NameNode启动时对整个文件系统的快照 2.edit logs - 它是在NameNode启动后,对文件系统的改动序列 2.SeconderyNamenode:  职责是合并NameNode的edit logs到fsima

Hadoop HDFS 基础使用

目录 1.HDFS 前言 ................................................................................................................................... 1 2.HDFS 相关概念和特性 ........................................................................................

每天收获一点点------Hadoop之HDFS基础入门

一.HDFS出现的背景 随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多台机器上的文件,于是就产生了分布式文件管理系统,英文名成为DFS(Distributed File System). 那么,什么是分布式文件系统?简而言之,就是一种允许文件通过网络在多台主机上分享的文件系统,可以让多个机器上的多个用户分享文件和存储空间.它最大的特点是“通透性”,DFS让实际上是通过网络来

初学HDFS的读过程和写过程的分析

刚刚接触HDFS,感觉HDFS的数据可靠性非常高,记录一下.. 一HDFS的基本原理 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode).名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问.集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建.删除和复制等操作.每个数据节点的数据实际上是保存在本地Linux文件