Hadoop提供了一个稳定的共享存储和分析系统,存储由HDFS实现,分析由MapReduce实现
MapReduce是分布式数据处理模式和执行环境
HDFS是分布式文件系统
为什么用MapReduce而不用数据库+更多磁盘?
1、磁盘驱动器发展趋势:寻址时间的提高速度远远慢于传输速率的提高速度,寻址受限于磁盘操作的延迟,而传输速率对应于磁盘的带宽,如果数据的访问模式受限于寻址,会导致花大量的时间来读写数据
2、在更新小部分数据库记录的时候,传统的B树通过排序/合并重建数据库的效果很好,但更新大部分数据库数据的时候,效率就没有MapReduce高
3、MapReduce适合处理那些需要分析整个数据集的问题,以批处理的方式分析,适用于被一次写入和多次读取的应用
时间: 2024-09-28 17:07:03