文件系统的一致性和应用程序的方法有关,如果不调用sync(),就需要做好因为客户端异常或者服务端故障而缺失部分数据。缺失数据这对应用来说是不可接受的。所以需要在合适的地方调用sync(),比如在写入一定量的数据后,尽管sync()用来最大限度的减轻hdfs的负担,但是他仍有不可忽视的开销。所以你需要在数据的健壮性和吞吐量之间做好权衡,其中一个好的平衡点:通过测试应用程序来选择sync频率间性能的平衡点
hadoop的设计目标之一就是能够在可靠的分布式集群上数据存储,hdfs允许数据丢失,所以数据备份就显的很重要。备份哪些数据,数据备份到哪里,这就比较关键。在备份过程中,最优先备份的应该是那些不可恢复,商业价值重要的数据
强调:不要认为hdfs的副本机制可以代替数据的备份
时间: 2024-10-15 20:44:49