1、HDFS只能读取,或者通过其他途径创建
2、transfrmation是lazy的。
3、传统的容错方式,数据检查点或者记录数据的更新
容错是分布式最困难的部分。
数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。
记录数据的更新:更新的很多,则记录成本很高。
4、RDD容错方式
所有的RDD知道自己的是从哪来的,并记录自己的数据是如何生成的,通过重新计算来生成原来丢失的数据。
时间: 2024-10-28 14:28:28
1、HDFS只能读取,或者通过其他途径创建
2、transfrmation是lazy的。
3、传统的容错方式,数据检查点或者记录数据的更新
容错是分布式最困难的部分。
数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。
记录数据的更新:更新的很多,则记录成本很高。
4、RDD容错方式
所有的RDD知道自己的是从哪来的,并记录自己的数据是如何生成的,通过重新计算来生成原来丢失的数据。