第六章的代码及命令的部分本人还未验证,先记录,验证后如有变动再更新. 一.是什么 1.是一个易于扩展的分布式文件系统 2.可以运行在大量普通廉价机器上,提供容错机制 3.可以为大量用户提供性能不错的文件存取服务 二.优点 高容错性:数据自动保存多个副本,副本丢失后,自动恢复 适合批处理:移动计算而非数据,数据位置暴露给计算框架 适合大数据处理:GB.TB.甚至PB级数据:百万规模以上的文件数量:10K+节点规模 流式文件访问:一次性写入,多次读取:保证数据一致性 可构建在廉价机器上:通过多副本提