GFS 元数据(metadata)中包含三部分:
GFS元数据的管理方式:
1.文件的命名空间和块的命名空间:
采用持久化的方式.
对于文件和块的命名空间以及从文件到块的映射:通过向操作日志登记修改而保持不变,操作日志存储在master的本地磁盘并在几个远程机器上留有副本,使用日志使得我们可以简单地,可靠地更新master状态.即使在master崩溃的情况下也不会有不一致的问题
2.块位置信息:
采用不持久化,定期查询的方式.
对于块和副本位置:master在每次启动以及当有chunkserver加入的时候询问每个chunkserver的所拥有的块的情况,master并不为chunkserver所拥有的块的副本保存一个不变的记录.它在启动时通过简单的查询来获取这些信息.master可以保持这些信息的更新,因为它控制所有块的位置.
不持久化的原因和好处:
1.因为chunkserver可能加入或者离开集群,改变路径名,崩溃,重启等.一个集群中有几百个server,这些情况可能经常发生,所以这样做就排除了master和chunkserver之间的同步问题.
2.只有chunkserver才能确定它自己到底有哪些块,可能由于各种错误,chunkserver中的一些块会自然消失,这样master就没必要为此保存一个不变的记录.
因为chunkserver才能确定它自己到底有哪些块,
操作日志的处理方式:
操作日志记录对metadata的所有修改,它作为逻辑时间线定义了并发操作的执行顺序.文件,块以及它们的版本号都是由它们被创建时的逻辑时间而唯一地,永久的被标示.
为了恢复时间短,日志必须小,每当日志增长到一定规模后,master就要检查它的状态,可以从本地磁盘装入最近的检查点来恢复状态.