早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。
流式计算系统的特点:
1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4)灵活强大的应用逻辑表达能力
目前典型的流式计算系统:
S4,storm,millwheel,samza,d-stream,hadoop online,mupd8等。
其中storm和millwheel是各方面比较突出的。
流式计算系统架构:
常见的流式计算系统架构分为两种:主从模式和p2p模式。
主从模式storm、millwheel和samza
p2p模式s4
samza是利用消息系统kafka和hadoop2.0的资源管理系统Yarn综合而成的,架构比较独特,但本质上遵循主从架构。
送达保证
三种可能:至少送达一次(at_least once delivery),至多送达一次(at_most once delivery),恰好送达一次(Exeact-once delivery)。
storm在系统中提供"恰好送达一次"语义是通过送达保证机制和事务拓扑联合来完成的。
samza依靠kafka的消息持久化联合broker缓存机制,保证"恰好送达一次"语义。
时间: 2024-10-31 14:39:48