大数据笔记04:大数据之Hadoop的HDFS(分布式文件系统)

1.HDFS是什么?

Hadoop分布式文件系统(HDFS),被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。

2.HDFS中的基本概念

(1)块(block)

    " 块 " 是固定大小的存储单元,HDFS的文件被分成块进行存储,HDFS的块默认大小是64MB。文件传递过来之后,HDFS会把文件拆分成块进行管理," 块"就是文件存储处理的逻辑单元。

(2)HDFS有两类节点: NameNode 和 DataNode

 • NameNode是HDFS的管理节点,存放文件元数据。

这里的元数据包括两个部分:

  --->1.文件与数据块的映射表

  --->2.数据块与数据节点的映射表

• DateNode是HDFS的工作节点,存放数据块。

3.HDFS体系结构:

客户想要访问数据,会先发请求给NameNode查询元数据。通过读取返回结果,知道文件存放在哪些节点上。于是到这些节点去拿数据库,下载完数据块之后,在组装拼装成完整的数据,也就是我们想要的文件。

时间: 2024-10-10 21:49:41

大数据笔记04:大数据之Hadoop的HDFS(分布式文件系统)的相关文章

Hadoop之HDFS分布式文件系统具有哪些优点?

随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量.更好的性能以及更高安全性的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也有优于传统分布式文件系统的优点. 1. 支持超大文件 HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据访问吞吐量,相应的,HDFS开放了一些POSIX的必须接口,容许流式访问文件系统的数据. 2. 高容错性能 HDFS面向的是成百上千的

hadoop[4]-hdfs分布式文件系统的基本工作机制

一.Namenode 和 Datanode HDFS采用master/slave架构.一个HDFS集群是由一个Namenode和一定数目的Datanodes组成.Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问.集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储.HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据.从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上.Name

Hadoop系列之hdfs(分布式文件系统)安装配置

Hadoop系列之hdfs(分布式文件系统)安装配置环境介绍:     ip                        节点192.168.3.10      hdfs-master192.168.3.11      hdfs-slave1192.168.3.12      hdfs-slave21.在所有机器添加hosts192.168.3.10      hdfs-master192.168.3.11      hdfs-slave1192.168.3.12      hdfs-slav

大数据笔记(二)——Apache Hadoop的体系结构

一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点. 2.接收客户端的请求:上传.下载文件.创建目录等. 3.记录客户端操作的日志(edits文件),保存了HDFS最新的状态 1)Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件.重命名文件.删除目录等 2)保存目录:$HADOOP_HOME/tmp/dfs/name/current 可以使用 hdfs oev -i 命令将日志(二进制)输出为 XML文件 hdfs o

Hadoop学习之路(2)Hdfs分布式文件系统

@[TOC] 1.Hadoop架构 Hadoop由三个模块组成:分布式存储HDFS.分布式计算MapReduce.资源调度引擎Yarn 2.HDFS体系架构 2.1NameNode    NameNode负责:文件元数据信息的操作以及处理客户端的请求   NameNode管理:HDFS文件系统的命名空间NameSpace.   NameNode维护:文件系统树(FileSystem)以及文件树中所有的文件和文件夹的元数据信息(matedata)维护文件到块的对应关系和块到节点的对应关系   Na

Elasticsearch学习笔记-04修改数据

Elasticsearch提供了近乎实时操作和检索数据的能力.默认情况下,在你新增/更新/删除数据之后,大概只有一秒的延迟即可反应在最新的搜索结果中.和其他的平台例如SQL的及时生效比较起来还是有比较大的区别的. (新建)索引/替换文档我们之前已经知道了如何索引一个文档,咱们再来复习一下: PUT /customer/external/1?pretty { "name": "John Doe" } 上面的命令会在customer索引中创建external类型的ID为

HDFS分布式文件系统(The Hadoop Distributed File System)

The Hadoop Distributed File System (HDFS) is designed to store very large data sets reliably, and to stream those data sets at high bandwidth to user applications. In a large cluster, thousands of servers both host directly attached storage and execu

hadoop(一HDFS)

hadoop(一HDFS) 介绍 狭义上来说: hadoop指的是以下的三大系统: HDFS :分布式文件系统(高吞吐,没有延时要求,容错性,扩展能力) MapReduce : 分布式计算系统 Yarn:分布式样集群资源管理 但是hadoop可不止这三个系统 广义上来说: hadoop指的是大数据的一个生态圈 架构模型 1.X版本的架构 NameNode:集群的主节点,主要是管理集群中的各种元数据() secondaryNameNode:主节点的辅助管理,主节点宕机后无法代替它(Secondar

大数据项目相关技术栈(Hadoop周边技术)

J2EE 框架Spring 开发框架 + SSH or SSM Lucene 索引和查询IKAnalyzer 分词Webmagic 爬虫 ETL工具:KettleSqoop 结构化数据库-hadoop数据萃取.可以将一个关系型数据库(MySQL ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 结构化数据库MySQL Oracle 需要关注的大数据系统:Hadoop HDFS 分布式文件系统Hadoop HBASE or Cassandra