再理解HDFS的存储机制

再理解HDFS的存储机制

1. HDFS开创性地设计出一套文件存储方式，即对文件分割后分别存放；

2. HDFS将要存储的大文件进行分割，分割后存放在既定的存储块（Block）中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求；

3. 一个HDFS集群包括两大部分，即NameNode与DataNode。一般来说，一个集群中会有一个NameNode和多个DataNode共同工作；

4. NameNode是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中DataNode主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储；

5. DataNode在HDFS集群中担任任务具体执行角色，是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个DataNode上，DataNode会定期向集群内NameNode发送自己的运行状态与存储内容，并根据NameNode发送的指令进行工作；

6. NameNode负责接受客户端发送过来的信息，然后将文件存储位置信息发送给提交请求的客户端，由客户端直接与DataNode进行联系，从而进行部分文件的运算与操作。

7. Block是HDFS的基本存储单元，默认大小是64M；

8. HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到3个相互独立的硬件上，这样可以快速恢复损坏的数据；

9. 用户可以使用既定的API接口对HDFS中的文件进行操作；

10. 当客户端的读取操作发生错误的时候，客户端会向NameNode报告错误，并请求NameNode排除错误的DataNode后后重新根据距离排序，从而获得一个新的DataNode的读取路径。如果所有的DataNode都报告读取失败，那么整个任务就读取失败；

11. 对于写出操作过程中出现的问题，FSDataOutputStream并不会立即关闭。客户端向NameNode报告错误信息，并直接向提供备份的DataNode中写入数据。备份DataNode被升级为首选DataNode，并在其余2个DataNode中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理。

时间： 2024-12-30 00:06:36

再理解HDFS的存储机制的相关文章

HDFS存储机制(转)

Hadoop中HDFS的存储机制 HDFS(Hadoop Distributed File System)是Hadoop分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的.下面我们首先介绍HDFS中的一些基础概念,然后介绍HDFS中读写操作的过程,最后分析了HDFS的优缺点. 1. HDFS中的基础概念 Block:HDFS中的存储单元是每个数据块block,HDFS默认的最基本的存储单位是64M的数据块.和普通的文件系统相同的是,HDFS中的文件也是被分成64M一块的

再理解Windows程序内部运行机制

参照孙鑫<VC++深入详解> 创建Win32程序的步骤: 1. 编写WinMain函数 2. 设计窗口类(WNDCLASS) 3. 注册窗口类 4. 创建窗口 5. 显示并更新窗口(ShowWindow(hwnd,SW_SHOWNORMAL);UpdateWindow(hwnd);) 6. 消息循环(不断地从消息队列中取出消息,并进行响应) 7. 窗口过程函数(处理发送给窗口的消息) 测试代码如下(在VS2010编译通过): #include <stdafx.h> #include

深入理解HDFS：Hadoop分布式文件系统

文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助. 1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储.统一管理分布在集群上的文件系统称为分布式文件系统.而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失. 传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制.由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时访问NFS Serve

解读SQL Server 2014可更新列存储索引——存储机制

概述 SQL Server 2014被号称是微软数据库的一个革命性版本,其性能的提升的幅度是有史以来之最. 可更新的列存储索引作为SQL Server 2014的一个关键功能之一,在提升数据库的查询性能方面贡献非常突出.据微软统计,在面向OLAP查询统计类系统中,相比其他SQL传统版本的数据库,报表查询的性能最大可提升上十倍. 下面我们从存储的角度来了解下SQL Server 2014的可更新列存储索引. 什么是列存储微软为了提升SQL Server的查询性能,更好的支持大数据分析,早在SQL

PHP内核的存储机制（分离/改变）

前言: 大部分程序员看博客可能不是太喜欢看汉字比较多的文章哈,但本文确实介绍以汉字为主描述,耐心看完,对大部分人来说肯定会有收获! 或许你知道,或许你不知道,PHP是一个弱类型,动态的脚本语言.所谓弱类型,就是说PHP并不严格验证变量类型(严格来讲,PHP是一个中强类型语言),在申明一个变量的时候,并不需要显示指明它保存的数据的类型.比如:$a = 1; (整形) $a ="1";(字符串) 一直使用PHP,但它究竟什么,底层是怎么实现才成就了PHP这样方便快捷的弱类型语言. 最近也查

Web存储机制—sessionStorage,localStorage使用方法

Web存储机制,在这里主要聊有关于Web Storage API提供的存储机制,通过该机制,浏览器可以安全地存储键值对,比使用cookie更加直观.接下来简单的了解如何使用这方面的技术. 基本概念 Web Storage 包含两种机制: sessionStorage为每一个给定的源维持一个独立的存储区域,该区域在页面会话期间可用(即只要浏览器处于打开状态,包括页面重新加载和恢复) localStorage同样的功能,但是在浏览器关闭,然后重新打开后数据仍然存在这两种机制是通过Window.se

Memcache存储机制与指令汇总

1.memcache基本简介 memcached是高性能的分布式内存缓存服务器.一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度.提高可扩展性. Memcache的运行图: Memcache的特征 memcached作为高速运行的分布式缓存服务器,具有以下的特点. 1.基于C/S架构协议简单 memcached的服务器客户端通信并不使用复杂的XML等格式,而使用简单的基于文本行的协议. 因此,通过telnet也能在memcached上保存数据.取得数据.

iOS runtime探究(二): 从runtime開始深入理解OC消息转发机制

你要知道的runtime都在这里转载请注明出处 http://blog.csdn.net/u014205968/article/details/67639289 本文主要解说runtime相关知识,从原理到实践.由于包括内容过多分为下面五篇文章详细解说.可自行选择须要了解的方向: 从runtime開始: 理解面向对象的类到面向过程的结构体从runtime開始: 深入理解OC消息转发机制从runtime開始: 理解OC的属性property 从runtime開始: 实践Category加入属

时序数据库连载系列: 时序数据库一哥InfluxDB之存储机制解析

InfluxDB 的存储机制解析本文介绍了InfluxDB对于时序数据的存储/索引的设计.由于InfluxDB的集群版已在0.12版就不再开源,因此如无特殊说明,本文的介绍对象都是指 InfluxDB 单机版 1. InfluxDB 的存储引擎演进尽管InfluxDB自发布以来历时三年多,其存储引擎的技术架构已经做过几次重大的改动, 以下将简要介绍一下InfluxDB的存储引擎演进的过程. 1.1 演进简史版本0.9.0之前 **基于 LevelDB的LSMTree方案** 版本0.9.0

猜你喜欢

bzoj1217: [HNOI2003]消防局的设立 [树形dp]

Description 2020年,人类在火星上建立了一个庞大的基地群,总共有n个基地.起初为了节约材料,人类只修建了n-1条道路来连接这些基地,并且每两个基地都能够通过道路到达,所以所有的基地形成了 ...

leetCode 51. N-Queens | 回溯问题(N皇后问题) | hard

51. N-Queens The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that n ...

WPF快速入门系列(5)——深入解析WPF命令

一.引言 WPF命令相对来说是一个崭新的概念,因为命令对于之前的WinForm根本没有实现这个概念,但是这并不影响我们学习WPF命令,因为设计模式中有命令模式,关于命令模式可以参考我设计模式的博文:h ...

算法导论6：排序小结和最值取法 2016.1.6

今天想做测试各个排序算法运行时间比较的程序,来对这几天学的排序算法小结一下.所以我先生成了1000000个1~150之间的随机数存到文件里.然后做了一个测试运行时间的程序.想看一下结构.但是结果效果并 ...

linux入门教程(六) Linux文件与目录管理

在linux中什么是一个文件的路径呢,说白了就是这个文件存在的地方,例如在上一章提到的/root/.ssh/authorized_keys 这就是一个文件的路径.如果你告诉系统这个文件的路径,那么系统 ...

【MyBean-开源框架】进行简单的逻辑插件(演示在控制台中应用)

[说明] 很多时候大家认为客户端插件一般是窗体.其实不然,很多功能都可以看成是插件,比如一个单据的审批功能,一个单据上面,单价的获取功能,都可以看成是插件,然后后期通过配置,可以灵活进行切换.MyBe ...

oracle 表空间扩容方法

测试环境 OS:RedHat 6.7 Oracle:11.2.0.4 [[email protected] ~]# su - oracle [[email protected] ~]$ sqlplus ...

多线程断点下载原理

上传到服务器原理商议客户端将文件长度Length.文件名Name.Id文件id以协议的形式发送到服务器.服务器判断Id是否为空,不为空时表示是断点上传,从存储断点上传文件的数据库中根据文件Id查询文 ...

linux 使用ssh到远端并且使用while的坑

如果要使用ssh批量登录到其它系统上操作时,我们会采用循环的方式去处理,那么这里存在一个巨大坑,你必须要小心了. 现在是想用一个脚本获取远程服务器端/root下面的文件: 1 #!/bin/bash ...

PYthon成长之路第一篇(1)__字符串初识 Python成长之路第一篇(2)-初识列表和元组 Python成长之路第一篇(3)_初识字典 Python成长之路第一篇(4)_if,for,while ...

zsc_寒假训练 7

Description Ignatius likes to write words in reverse way. Given a single line of text which is writt ...

PAT 1047. 编程团体赛(20)

编程团体赛的规则为:每个参赛队由若干队员组成:所有队员独立比赛:参赛队的成绩为所有队员的成绩和:成绩最高的队获胜. 现给定所有队员的比赛成绩,请你编写程序找出冠军队. 输入格式: 输入第一行给出一个正 ...

select for update行锁

select for update行锁 2008-05-26 15:15:37 分类: Oracle Select-For Update语句的语法与select语句相同,只是在select语句的后面加 ...

redis与memcache的区别

1. Redis中,并不是所有的数据都一直存储在内存中的,这是和Memcached相比一个最大的区别. 2. Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构 ...

简析Android 兼容性测试框架CTS使用

一.什么是兼容性测试? 1)为用户提供最好的用户体验,让更多高质量的APP可以顺利的运行在此平台上 2)让程序员能为此平台写更多的高质量的应用程序 3)可以更好的利用Android应用市场二.CTS ...

maven 介绍(二)

本文内容主要摘自:http://www.konghao.org/index 内部视频三.仓库仓库:本地仓库:远程仓库:私有仓库(nexus) 1. nexus 的安装: 1). 下载并且解压缩 2 ...

SQL通过日期计算年龄

原文:SQL通过日期计算年龄首先建立一个表如下: ======================= BirthDay datetime not null Age 通过公式计算得出 ========== ...

Activity的四种加载模式（附：Intent标记位）

Activity的加载模式是在清单文件AndroidManifest.xml文件中进行设置 <activity android:name="...." android:lab ...

通辽手机网站开发，通辽手机网站建设

通辽市易联通达网络开发有限公司前身是易通科技,位于内蒙古通辽市科尔沁区中心大街, 是专业从事IT行业的高科技公司,主要业务是面向用户提供域名注册,空间租用,网站建设,网站改版,网站维护,网络推广,软件 ...

好用的图片裁剪类

<?php /** * Author : smallchicken * Time : 2009年6月8日16:46:05 * mode 1 : 强制裁剪,生成图片严格按照需要,不足放大,超过裁剪 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.021 s.