===================== MapReduce内部机制:本地性 =====================
什么是数据本地性(data locality)-------------------------->
如果任务运行在它将处理的数据所在的节点,则称该任务 具有“数据本地性”
本地性可避免跨节点或机架数据传输,提高运行效率
数据本地性分类 -------------------------->
同节点(node-local)
同机架(rack-local)
其他(off-switch)
===================== MapReduce内部机制:推测执行 =====================
作业完成时间取决于最慢的任务完成时间 ---------------------->
一个作业由若干个Map任务和Reduce任务构成
因硬件老化、软件Bug等,某些任务可能运行非常慢
推测执行机制 ---------------------->
发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度
为拖后腿任务启动一个备份任务,同时运行
谁先运行完,则采用谁的结果
不能启用推测执行机制 ---------------------->
任务间存在严重的负载倾斜
特殊任务,比如任务向数据库中写数据
时间: 2024-10-25 13:39:32