HDFS集中式的缓存管理原理与代码剖析--转载

原文地址：http://yanbohappy.sinaapp.com/?p=468

Hadoop 2.3.0已经发布了，其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助，本文从原理、架构和代码剖析三个角度来探讨这一功能。

主要解决了哪些问题

1.用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据常驻内存而不被淘汰到磁盘。例如在Hive或Impala构建的数据仓库应用中fact表会频繁地与其他表做JOIN，显然应该让fact常驻内存，这样DataNode在内存使用紧张的时候也不会把这些数据淘汰出去，同时也实现了对于 mixed workloads的SLA。

2.centralized cache是由NameNode统一管理的，那么HDFS client（例如MapReduce、Impala）就可以根据block被cache的分布情况去调度任务，做到memory-locality。

3.HDFS原来单纯靠DataNode的OS buffer cache，这样不但没有把block被cache的分布情况对外暴露给上层应用优化任务调度，也有可能会造成cache浪费。例如一个block的三个replica分别存储在三个DataNote 上，有可能这个block同时被这三台DataNode的OS buffer cache，那么从HDFS的全局看就有同一个block在cache中存了三份，造成了资源浪费。

4.加快HDFS client读速度。过去NameNode处理读请求时只根据拓扑远近决定去哪个DataNode读，现在还要加入speed的因素。当HDFS client和要读取的block被cache在同一台DataNode的时候，可以通过zero-copy read直接从内存读，略过磁盘I/O、checksum校验等环节。

5.即使数据被cache的DataNode节点宕机，block移动，集群重启，cache都不会受到影响。因为cache被NameNode统一管理并被被持久化到FSImage和EditLog，如果cache的某个block的DataNode宕机，NameNode会调度其他存储了这个replica的DataNode，把它cache到内存。

基本概念

cache directive: 表示要被cache到内存的文件或者目录。
cache pool: 用于管理一系列的cache directive，类似于命名空间。同时使用UNIX风格的文件读、写、执行权限管理机制。命令例子：

hdfs cacheadmin -addDirective -path /user/hive/warehouse/fact.db/city -pool financial -replication 1

以上代码表示把HDFS上的文件city(其实是hive上的一个fact表)放到HDFS centralized cache的financial这个cache pool下，而且这个文件只需要被缓存一份。

系统架构与原理

用户可以通过hdfs cacheadmin命令行或者HDFS API显式指定把HDFS上的某个文件或者目录放到HDFS centralized cache中。这个centralized cache由分布在每个DataNode节点的off-heap内存组成，同时被NameNode统一管理。每个DataNode节点使用mmap/mlock把存储在磁盘文件中的HDFS block映射并锁定到off-heap内存中。

DFSClient读取文件时向NameNode发送getBlockLocations RPC请求。NameNode会返回一个LocatedBlock列表给DFSClient，这个LocatedBlock对象里有这个block的replica所在的DataNode和cache了这个block的DataNode。可以理解为把被cache到内存中的replica当做三副本外的一个高速的replica。

注：centralized cache和distributed cache的区别：

distributed cache将文件分发到各个DataNode结点本地磁盘保存，并且用完后并不会被立即清理的，而是由专门的一个线程根据文件大小限制和文件数目上限周期性进行清理。本质上distributed cache只做到了disk locality，而centralized cache做到了memory locality。

实现逻辑与代码剖析

HDFS centralized cache涉及到多个操作，其处理逻辑非常类似。为了简化问题，以addDirective这个操作为例说明。

1.NameNode处理逻辑

NameNode内部主要的组件如图所示。FSNamesystem里有个CacheManager是centralized cache在NameNode端的核心组件。我们都知道BlockManager负责管理分布在各个DataNode上的block replica，而CacheManager则是负责管理分布在各个DataNode上的block cache。

DFSClient给NameNode发送名为addCacheDirective的RPC，在ClientNamenodeProtocol.proto这个文件中定义相应的接口。

NameNode接收到这个RPC之后处理，首先把这个需要被缓存的Path包装成CacheDirective加入CacheManager所管理的directivesByPath中。这时对应的File/Directory并没有被cache到内存。

一旦CacheManager那边添加了新的CacheDirective，触发CacheReplicationMonitor.rescan()来扫描并把需要通知DataNode做cache的block加入到CacheReplicationMonitor. cachedBlocks映射中。这个rescan操作在NameNode启动时也会触发，同时在NameNode运行期间以固定的时间间隔触发。

Rescan()函数主要逻辑如下：

rescanCacheDirectives()->rescanFile():依次遍历每个等待被cache的directive（存储在CacheManager. directivesByPath里），把每个等待被cache的directive包含的block都加入到CacheReplicationMonitor.cachedBlocks集合里面。

rescanCachedBlockMap():调用CacheReplicationMonitor.addNewPendingCached()为每个等待被cache的block选择一个合适的DataNode去cache（一般是选择这个block的三个replica所在的DataNode其中的剩余可用内存最多的一个），加入对应的DatanodeDescriptor的pendingCached列表。

2.NameNode与DataNode的RPC逻辑

DataNode定期向NameNode发送heartbeat RPC用于表明它还活着，同时DataNode还会向NameNode定期发送block report（默认6小时）和cache block（默认10秒）用于同步block和cache的状态。

NameNode会在每次处理某一DataNode的heartbeat RPC时顺便检查该DataNode的pendingCached列表是否为空，不为空的话发送DatanodeProtocol.DNA_CACHE命令给具体的DataNode去cache对应的block replica。

3.DataNode处理逻辑

DataNode内部主要的组件如图所示。DataNode启动的时候只是检查了一下dfs.datanode.max.locked.memory是否超过了OS的限制，并没有把留给Cache使用的内存空间锁定。

在DataNode节点上每个BlockPool对应有一个BPServiceActor线程向NameNode发送heartbeat、接收response并处理。如果接收到来自NameNode的RPC里面的命令是DatanodeProtocol.DNA_CACHE，那么调用FsDatasetImpl.cacheBlock()把对应的block cache到内存。

这个函数先是通过RPC传过来的blockId找到其对应的FsVolumeImpl (因为执行cache block操作的线程cacheExecutor是绑定在对应的FsVolumeImpl里的)；然后调用FsDatasetCache.cacheBlock()把这个block封装成MappableBlock加入到mappableBlockMap里统一管理起来，然后向对应的FsVolumeImpl.cacheExecutor线程池提交一个CachingTask异步任务(cache的过程是异步执行的)。

FsDatasetCache有个成员mappableBlockMap(HashMap)管理着这台DataNode的所有的MappableBlock及其状态(caching/cached/uncaching)。目前DataNode中”哪些block被cache到内存里了”也是只保存了soft state(和NameNode的block map一样)，是DataNode向NameNode 发送heartbeat之后从NameNode那问回来的，没有持久化到DataNode本地硬盘。

CachingTask的逻辑：调用MappableBlock.load()方法把对应的block从DataNode本地磁盘通过mmap映射到内存中，然后通过mlock锁定这块内存空间，并对这个映射到内存的block做checksum检验其完整性。这样对于memory-locality的DFSClient就可以通过zero-copy直接读内存中的block而不需要校验了。

4.DFSClient读逻辑：

HDFS的读主要有三种：网络I/O读 -> short circuit read -> zero-copy read。网络I/O读就是传统的HDFS读，通过DFSClient和Block所在的DataNode建立网络连接传输数据。

当DFSClient和它要读取的block在同一台DataNode时，DFSClient可以跨过网络I/O直接从本地磁盘读取数据，这种读取数据的方式叫short circuit read。目前HDFS实现的short circuit read是通过共享内存获取要读的block在DataNode磁盘上文件的file descriptor(因为这样比传递文件目录更安全)，然后直接用对应的file descriptor建立起本地磁盘输入流，所以目前的short circuit read也是一种zero-copy read。

增加了Centralized cache的HDFS的读接口并没有改变。DFSClient通过RPC获取LocatedBlock时里面多了个成员表示哪个DataNode把这个block cache到内存里面了。如果DFSClient和该block被cache的DataNode在一起，就可以通过zero-copy read大大提升读效率。而且即使在读取的过程中该block被uncache了，那么这个读就被退化成了本地磁盘读，一样能够获取数据。

对上层应用的影响

对于HDFS上的某个目录已经被addDirective缓存起来之后，如果这个目录里新加入了文件，那么新加入的文件也会被自动缓存。这一点对于Hive/Impala式的应用非常有用。

HBase in-memory table：可以直接把某个HBase表的HFile放到centralized cache中，这会显著提高HBase的读性能，降低读请求延迟。

和Spark RDD的区别：多个RDD的之间的读写操作可能完全在内存中完成，出错就重算。HDFS centralized cache中被cache的block一定是先写到磁盘上的，然后才能显式被cache到内存。也就是说只能cache读，不能cache写。

目前的centralized cache不是DFSClient读了谁就会把谁cache，而是需要DFSClient显式指定要cache谁，cache多长时间，淘汰谁。目前也没有类似LRU的置换策略，如果内存不够用的时候需要client显式去淘汰对应的directive到磁盘。

现在还没有跟YARN整合，需要用户自己调整好留给DataNode用于cache的内存和NodeManager的内存使用。

参考文献

http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

https://issues.apache.org/jira/browse/HDFS-4949

时间： 2024-12-26 05:23:12

HDFS集中式的缓存管理原理与代码剖析--转载的相关文章

HDFS集中式的缓存管理原理与代码剖析

转载自:http://www.infoq.com/cn/articles/hdfs-centralized-cache/ HDFS集中式的缓存管理原理与代码剖析 Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management).这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理.架构和代码剖析三个角度来探讨这一功能. 主要解决了哪些问题用户可以根据自己的逻辑指定一些经常被使用的数据或者高

HDFS集中式缓存管理（Centralized Cache Management）

Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在DataNode的内存当中集中式缓存管理有着许多显著的优势: 防止那些被频繁使用的数据从内存中清除因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓存的列表,使用一个被缓存的块副本能够提高读性能当块被DataNode缓存之后,客户端可以使用一个新的.高效的.zero-c

自动化运维集中式管理工具saltstack的基于各个平台的部署

集中式管理工具saltstack是兼容Linux.Windows.Unix平台,能实现服务器的批量管理,命令或脚本下发,软件部署,环境搭建,配置管理,是运维人员的提高管理效率的工具.至于更详细的功能与优势这里不再介绍,网络上有很多前辈有介绍,这里只介绍部署方法. 部署环境 saltstack版本:2015.8.7 服务端master:CentOS6.7 master 被控段minion:CentOS5.11 minion01 CentOS6.7 minion02 CentOS7.2

【Hadoop学习】HDFS中的集中化缓存管理

Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146398.html 概述 HDFS中的集中化缓存管理是一个明确的缓存机制,它允许用户指定要缓存的HDFS路径.NameNode会和保存着所需快数据的所有DataNode通信,并指导他们把块数据缓存在off-heap缓存中. HDFS集中化缓存管理具有许多重大优势: 1.明确的锁定可以阻止频繁使用的数据被从内存中清除.当工作集

HDFS中心缓存管理

前言众所周知,HDFS作为一个分布式文件系统.存储着海量的数据,每天的IO读写操作次数当然是非常高的.所以在之前的文章中,我们提到了用HDFS的异构存储来做冷热数据的分类存储,但比较好的一点是,他们还是隶属于同一个集群.那么问题来了,是否我还可以做进一步的改进,优化呢,因为有的数据文件访问在某个时间段是大家公用的,访问频率甚至比一般的热点文件还要高很多.但是过了那个时间点,就又会变为普通的文件.本文就来分享HDFS对于这一需求点的解决方案,HDFS中心缓存管理.这一方面的功能属性,可能也被很多

源代码管理——git（分布式版本控制和集中式版本控制对比，git和SVN对比，git常用指令，搭建GitHub远程仓库，搭建oschina远程仓库）

一.git简介什么是git? git是一款开源的分布式版本控制工具在世界上所有的分布式版本控制工具中,git是最快.最简单.最流行的 git的起源作者是Linux之父:Linus Benedict Torvalds 当初开发git仅仅是为了辅助Linux内核的开发(管理源代码) git的现状在国外已经非常普及,国内并未普及(在慢慢普及) 越来越多的开源项目已经转移到git CVS 最早的开源.免费的集中式版本控制工具自身设计有问题,会造成提交文件不完整,版本库莫名其妙损坏的情况 SVN

十一：Centralized Cache Management in HDFS 集中缓存管理

集中的HDFS缓存管理,该机制可以让用户缓存特定的hdfs路径,这些块缓存在堆外内存中.namenode指导datanode完成这个工作. Centralized cache management in HDFS has many significant advantages. Explicit pinning prevents frequently used data from being evicted from memory. This is particularly important

Atitit 分布式管理 vs 集中式管理

1. 集中式管理缺点 1 1.1. 单点故障 1 1.2. 没有灵活性 1 1.3. 打败vs 征服参考尼可罗·马基雅弗利编著的<君主论> 1 1.4. 为什么印加帝国八万精锐打不过西班牙一百多散兵游勇_百度知道 2 2. 分布式优点 2 2.1. 自主与独立 2 2.2. 多姿多彩的模式 2 3. 趋势,分布式 ..从社会组织的情况看,从独裁到集权,到民主化 2 4. 结论::分布式管理优先 80% + 30%的集中式管理是王道 2 1. 集中式管理缺点 1.1. 单点故障 1.2.

SpringBoot初始教程之Redis集中式Session管理

1.介绍有关Session的管理方式这里就不再进行讨论,目前无非就是三种单机Session(基于单机内存,无法部署多台机器).基于Cookie(安全性差).基于全局的统一Session管理(redis.mysql)等多种方式针对于像淘宝这种超大型网站来说Session如何管理的就无从得知了.但是可以通过yy的方式想象一下,这种大型架构都需要部署多台认证Server,但是一般来说集中式Session无法存储那么多的Session 那么就可以通过UID分片的形式来存储,不同UID分布在不同的Se

猜你喜欢

回家干得好就给大家的感觉规定

http://www.acfun.tv/a/aa4305026 http://www.acfun.tv/a/aa4305038 http://www.acfun.tv/a/aa4305041 http ...

【好人修电脑系列】打印机问题

症状描述: 打印机服务print spooler服务启动一会儿,就会自动关闭. 点击打印出现找不到打印机这个错误选项解决方法: 删除注册表这个键值下的version -3 HKEY_LOCAL_MA ...

splay伸展树模板

1 struct SplayTree 2 { 3 4 const static int maxn = 1e5 + 15; 5 6 int tot,root,ch[maxn][2], key[maxn] ...

子数涵数·C语言——让C帮你做计算

之前,我们学过了我们的第一个C程序——hello World.现在开始进一步学习,想一想如何让C帮你做计算. 我们先来看代码(我没有新建,还是用之前的hello world.cpp): 好,因为之前在 ...

ios测试

1.今天在公司中遇到一个问题:想到一个好的想法 1 // 2 // CloudView.m 3 // Test 4 // 5 // Created by zhangmh on 12-7-9. 6 // ...

放大电路中的自激震荡及相位补偿方法

自激震荡产生条件: 由于电容的电流滞后于电压,导致信号产生相位滞后,而容抗随频率增大,因而低频滞后小,高频滞后大.假设放大电路反馈回路为纯电阻, 在低频段,耦合电容.旁路电容分压作用增大,影响电流, ...

Objects and values

If we execute these assignment statements: We know that a and b both refer to a string, but we don’t ...

KeyMob移动广告聚合平台助力开发者，提供广告聚合服务

KeyMob移动广告聚合平台(简称KeyMob聚合),在国内首推具备盈利能力的广告聚合平台,主要致力于为众多开发者带来更高的广告收益和更有效的广告管理方式. KeyMob移动广告聚合平台(www.ke ...

notepad编写的脚本在shell下无法运行

Notepad++ 是一款Windows环境下免费开源的代码编辑器,支持的语言:C, C++ , Java , C#, XML, HTML, PHP, Javascript! 本文给大家讲解的是用no ...

Android 程序打包签名介绍

为什么要签名??? 开发Android的人这么多,完全有可能大家都把类名,包名起成了一个同样的名字,这时候如何区分?签名这时候就是起区分作用的. 由于开发商可能通过使用相同的Package Name来 ...

阿花宝宝 Java基础笔记之继承

一,继承当某些类有一些共同内容时,可以把这些共同的内容抽取到父类中.1.分析出多个类共有的属性和方法2.将这些共有的抽取出一个父类,创建父类,讲共同的内容抽取到父类,本类只保留特有的内容 3.子 ...

C#自己的数据库语言LINQ（1）

与其他语言不太相同,C#语言本身有着自己的数据库查询语言,叫做LINQ,全称Language-INtegrated Query. 在很大程度上,LINQ与我们常用的SQL是相通的,但是却有着更加独特的 ...

java.lang.NoSuchMethodException解决方法

java.lang.NoSuchMethodException: [Lcn.edu.bnu.land.model.Zbcrxx;.<init>()

【NOIP模拟赛】皇后游戏

[引子]还记得 NOIP 2012 提高组 Day1 的国王游戏吗?时光飞逝,光阴荏苒,两年过去了.国王游戏早已过时,如今已被皇后游戏取代,请你来解决类似于国王游戏的另一个问题.[问题描述]皇后有 n ...

将Xml或Json生成类的最简单方式

来源于 http://stackoverflow.com/questions/3187444/convert-xml-string-to-object

netsh端口转发

使用多个虚拟机,将开发环境和工作沟通环境分开(即时通,办公系统都只能在windows下使用…),将开发环境的服务提供给外部访问时,需要在主机上通过代理配置数据转发. VirtualBox提供了端口转发 ...

Android Fragment和FragmentActivity区别和用法

Android Fragment是Android4.0以上才有的:而FragmentActivity是为了兼容4.0以下版本的Fragment使用的. 所以如果你想兼容4.0以下Android版本使用 ...

WPF和WinRT中的导航问题

一.Frame.Page框架的相关介绍 1.Frame类: 继承层次结构 System.Object System.Windows.Threading.DispatcherObject Syst ...

Win7 SP1 安装SQL Server 2012时提示“此计算机上的操作系统不符合 SQL Server 2012的最低要求”

解决方案:这是因为你安装SQL时,选择了兼容XP SP3或者其它兼容方式进行安装.

ssssssssss

create or replace view V_YCJK as SELECT BRZYH,BRXM,ISNULL(ZGQK,2) AS ZGQK,'PGD' LX FROM HL_YCJLJK WH ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.