hadoop的两大核心之一:HDFS总结

什么是HDFS?

hadoop distributed file system(hadoop分布式文件系统)

是一种允许文件通过网络在多台主机上分享的文件系统,

可让多机器上的多用户分享文件和存储空间.

特点:

1.通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,

就像是访问本地的磁盘一般.

2.容错性.即使系统中有某些节点脱机,整体来说系统仍然可以持续运作

而不会有数据损失.

适用场景:

适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适.

HDFS的架构

主从结构

主节点,只有一个: namenode

从节点,有很多个: datanodes

namenode负责：

接收用户操作请求

维护文件系统的目录结构

管理文件与block之间关系,block与datanode之间关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为保证数据安全,文件会有多个副本

NameNode(可以理解为老大)

是整个文件系统的管理节点.它维护着整个文件系统的文件目录树,

文件/目录的元信息和每个文件对应的数据块列表.接收用户的操作请求.

文件包括(这三个都保存在linux的文件系统中):

fsimage:元数据镜像文件,存储某一时段NameNode内存元数据信息.

edits:操作日志文件.

fstime:保存最近一次checkpoint的时间

工作特点:

1.Namenode始终在内存中保存metedata,用于处理"读请求".

2.到有"写请求"到来时,namenode会首先写editlog到磁盘,

即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回.

3.Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,

但是fsimage不会随时与namenode内存中的metedata保持一致,

而是每隔一段时间通过合并edits文件来更新内容.Secondary namenode

就是用来合并fsimage和edits文件来更新NameNode的metedata的.

DataNode(可以理解为小弟)

提供真实文件数据的存储服务.

最基本的存储单位:block(文件块),默认大小为64M

Secondary NameNode(可以理解为老大的助理)

HA(High Available)的一个解决方案.但不支持热备.配置即可

默认在安装在NameNode节点上,但这样...不安全！

(生产环境中,建议分开安装)

执行过程:

从NameNode上下载元数据信息（fsimage,edits）,然后把二者合并,生成

新的fsimage,在本地保存,并将其推送到NameNode,替换旧的fsimage.

工作流程:

1.secondarynamenode通知namenode切换edits文件

2.secondarynamenode从namenode获得fsimage和edits(通过http)

3.secondarynamenode将fsimage载入内存,然后开始合并edits

4.secondarynamenode将新的fsimage发回给namenode

5.namenodenamenode用新的fsimage替换旧的fsimage

hadoop的整个体系结构就是构建在RPC之上的

RPC(Remote Procedure Call),(RPC采用客户机/服务器模式)

远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,

而不需要了解底层网络技术的协议.

具体实现过程:

首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,

然后等待应答信息.在服务器端,进程保持睡眠状态直到调用信息的到达为止.

当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,

然后等待下一个调用信息,

最后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行.

服务端提供的对象必须是一个接口,接口extends VersioinedProtocal

客户端能够的对象中的方法必须位于对象的接口中.

http://m.oschina.net/blog/212102

时间： 2024-10-06 13:33:20

hadoop的两大核心之一:HDFS总结的相关文章

【hadoop之翊】——hadoop大核心之HDFS初识

今天来说说hadoop的一大核心--HDFS,这个是很重要的,它呢,是分布式文件系统.为什么说hadoop能存储海量数据?其实主要还是依赖与hdfs的能力,主要依赖的是hdfs能存储海量数据. 1. 为什么hdfs能存储海量数据呢? 一开始抛出这样的问题来想想.至于HDFS的基本概念什么的都不用多说了的~我们重在使用,而不是去做"研究".扯蛋的话就是,"专家的研究"已经成为名副其实的贬义词了,很带有讽刺意义了,在现在这个时代~你们懂的~因为他们有的没有真正经历过,而

Java入门到精通——框架篇之Spring源码分析Spring两大核心类

一.Spring核心类概述. Spring里面有两个最核心的类这是Spring实现最重要的部分. 1.DefaultListableBeanFactory 这个类位于Beans项目下的org.springframework.beans.factory.support包下. XmlBeanFactory(位于org.springframework.beans.factory.xml包)继承自DefaultListableBeanFactory,而DefaultListableBeanFactory

Spring 两大核心IOC和DI

Spring的两大核心是IOC和DI IOC:控制反转,对象创建的权利交给springApplication容器 DI:依赖注入,注入的是属性传统意义上创建对象都是new操作. 举个例子: dao层类:UserDao service层类:UserService web(controller)层:UserController 三个层的调用关系为: web ---> service ---> dao 这样的情况 web层会new一个service层对象 service层会new一个dao

Spring 两大核心 IOC 和 AOP

如果你的简历上写着Spring (请详述一下spring的两大核心)这个问题一定会被问到. 一.什么叫IOC 1. IOC 全称(Inversion of Control)-- 控制反转. IOC 只是一种设计思想,具体实现是 DI (Dependency Injection)-- 依赖注入 ●谁控制谁,控制什么:传统Java SE程序设计,我们直接在对象内部通过new进行创建对象,是程序主动去创建依赖对象:而IoC是有专门一个容器来创建这些对象,即由Ioc容器来控制对象的创建:谁控制谁?当然

抖音运营为您分析抖音企业的两大核心价值

疫情带来挑战也带来机遇可以预见的是,运算能力会是企业未来的根本能力,像一些短视频.外卖平台就是抓住了这个能力,在疫情来临时,才不会手忙脚乱,反而流量再创新高,并从传统企业手中批量夺走客户.宅经的济兴起,电商.短视频.科技.人工智能等领域会飞速增长.顺应时代潮流,是每个企业都必须做的事情, 学会运营抖音将就是第一步.现在抖音运营抖商快车为您分析抖音企业的两大核心价值.建立品牌在短视频平台上的用户资产:一般来讲,很多品牌在进行短视频营销时,只是一次性投放,视频传播过后只能留下曝光数据.而有了企业号这

hadoop两大核心之一:MapReduce总结

MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键值对作为输入和输出.用户只需要实现map()和reduce()两个函数即可实现分布式计算. 执行步骤: map任务处理: 1.读取输入文件内容,解析成键值对(key/value).对输入文件的每一行,解析成键值对(key/value).每一个键值对调

hadoop学习；大数据集在HDFS中存为单个文件；安装linux下eclipse出错解决；查看.class文件插件

sudo apt-get install eclipse 安装后打开eclipse,提示出错 An error has occurred. See the log file /home/pengeorge/.eclipse/org.eclipse.platform_3.7.0_155965261/configuration/1342406790169.log. 查看错误日志然后解决打开log文件,看到以下的错误 !SESSION 2012-07-16 10:46:29.992 --------

Spring系列之——Spring事务以及两大核心IOC和AOP

1 Spring事务 1.1 Spring事务是什么(百度) 事务是对一系列的数据库操作(比如插入多条数据)进行统一的提交或是回滚操作,如果插入成功,那么一起成功,如果中间一条出现异常,那么回滚之前的所有操作. Spring事务管理机制使用的是TransactionManager进行管理.回滚注解@Transactional. 2 Spring特征 1)开源框架. 2)IOC(控制反转) 将类的创建和依赖关系写在配置文件中,由配置文件注入,实现松耦合. 3)AOP 将安全.事务等程序逻辑相对独立

Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.Hbase.Hive是如何运行,以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现.如有不足,后续及时修改. HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持. HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本