Hadoop_06_Hadoop的HDFS的概念和特性

1.HDFS的概念和特性

  1.1. 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件  

  1.2. 它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:  

    (1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x

版本中是128M,老版本中是64M

    (2)HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-

b/dir-c/file.data

    (3)目录结构及文件分块信息(元数据)的管理由namenode节点承担,namenode是HDFS集群主节点,负责维护整个hdfs文件系

统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器)

    (4)文件的各个block的存储管理由datanode节点承担,datanode是HDFS集群从节点,每一个block都可以在多个datanode上存

储多个副本(副本数量也可以通过参数设置dfs.replication) 

    (5)HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改

     (注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)

原文地址:https://www.cnblogs.com/yaboya/p/9192068.html

时间: 2024-10-05 15:22:07

Hadoop_06_Hadoop的HDFS的概念和特性的相关文章

【待修改】[HDFS_1] HDFS 的概念和特性

0. 参考 HDFS你一定要知道,要考的 大数据开发实战:HDFS和MapReduce优缺点分析 SecondaryNamenode的作用详解 1. HDFS 是什么 HDFS :一种分布式文件系统,可提供对应用程序数据的高吞吐量访问,解决海量数据存储问题. 2. HDFS 产生的背景 & 设计前提 随着互联网的发展,数据产生的数量越来越大,速度越来越快.传统的文件系统所依赖的服务器价格昂贵,提高其处理性能成本较高且已达到技术瓶颈,纵向扩展并不符合当今需求. HDFS 它的设计目标就是把超大的数

Hadoop — HDFS的概念、原理及基本操作

1. HDFS的基本概念和特性 设计思想--分而治之:将大文件.大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析.在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,....)提供数据存储服务. 1.1 HDFS的概念 首先,它是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件: 其次,它是分布式的,有很多服务器联合起来实现其功能,集群中的服务器有各自的角色: 重点概念:文件切块,副本存放,元数据(目录结构及文

【转帖】Hadoop — HDFS的概念、原理及基本操作

https://www.cnblogs.com/swordfall/p/8709025.html 分类: Hadoop undefined 1. HDFS的基本概念和特性 设计思想——分而治之:将大文件.大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析.在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,....)提供数据存储服务. 1.1 HDFS的概念 首先,它是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位

面向对象(一)【“类与对象”的概念及特性】

面向对象程序设计(英语:Object-oriented programming,缩写:OOP)是种具有对象概念的程序编程范式,同时也是一种程序开发的抽象方针.在此不再累述编程范式的种种类别,重点讨论“类与对象”概念及特性. 1 类与对象的概念 类(class): 对一类具有相同属性的对象的抽象.比如,牧羊犬.金毛.哈士奇都可抽象为“狗”类.类的定义包含了数据的形式以及对数据的操作.对象(object): 类的实例,每个对象都是其类中的一个实体.比如,我家的狗名字叫buck, 那么buck这条活生

大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性

第6章 DataNode(面试开发重点)6.1 DataNode工作机制6.2 数据完整性6.3 掉线时限参数设置6.4 服役新数据节点6.5 退役旧数据节点6.5.1 添加白名单6.5.2 黑名单退役6.6 Datanode多目录配置第7章 HDFS 2.X新特性7.1 集群间数据拷贝7.2 小文件存档7.3 回收站7.4 快照管理 第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 DataNode工作机制,如下图所示. 1)一个数据块在DataNode上以文件形式存

关于Spark的基本概念和特性简介

1.Spark是什么? ○ 高可伸缩性 ○ 高容错 ○ 基于内存计算 2.Spark的生态体系(BDAS,中文:伯利克分析栈) ○ MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一 ○ Hadoop包含了MapReduce.HDFS.HBase.Hive.Zookeeper.Pig.Sqoop等 ○ BDAS包含了Spark.Shark(相当于Hive).BlinkDB.Spark Streaming(消息实时处理框架,类似Storm)等等 ○ BDAS生态体

辛星笔记之Hadoop权威指南第五篇HDFS基本概念

每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位.构建于单个磁盘上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的数倍.文件系统一般为几千字节,而磁盘块一般为512字节. HDFS同样也有块的概念,但是它大得多,默认为64MB.与单一磁盘上的文件系统相似,HDFS的文件也被划分为块大小的多个分块(chunk),作为独立的存储单元.但是HDFS中小于一个块大小的文件不会占据整个块的空间. HDFS的块比磁盘块大,它的目的是为了最小化寻址开销.如果块设置的足够

IdentityServer的基本概念与特性

基本概念 IdentityServer4是一个基于OpenID Connect和OAuth 2.0的针对ASP.NET Core 2.0的框架. IdentityServer4可以帮助我们实现什么 IdentityServer是将规范兼容的OpenID Connect和OAuth 2.0终结点添加到任意ASP.NET Core应用程序的中间件.通常,你构建(或重新使用)包含登录和注销页面的应用程序,IdentityServer中间件会向其添加必要的协议头,以便客户端应用程序可以使用这些标准协议与

HDFS原理概念扫盲

1.概述 hdfs文件系统主要设计为了存储大文件的文件系统:如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件:退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗 hdfs的出现就是为了解决上面的问题 hdfs为了满足大文件的存储和可读性,对数据进行切成多个小块进行存储,同时为了保证数据的可靠性,又对每个小块数据做复制,然后分别存储到多个节点中 hdfs2.7.3后,默认