storm trident 消息成功处理

trident里面

batch会被缓存，这样失败了可以重新发送

多个batch可以并行被process，但是commit是严格按照txid顺序来执行

一个batch的状态会存在zk里

只要batch在timeout时间内commit就算完成了，应该同时会清缓存

如果异常或超时了，就会replay

在原声的storm中一个tuple和它衍生的tuple有没有被成功处理，是通过一个异或机制来监控的，如果被成功处理，最后肯定会是0

batch也是类似的监控机制

一个batch也会衍生出一些tuple，也会通过groupby，来拆分进行process

一个tuple完成时说，它和它的衍生tuple，都ack成功了，

一个batch完成时说，batch里的所有tuple都成功了，这些tuple本身都是带txid标志的

一个batch中的多个tuple可能会被shuffle到多个partition，分别处理，这个是没关系的

一个window内可能包含多个batch，他们会被一起处理

原文地址：https://www.cnblogs.com/brainstorm/p/9081447.html

时间： 2024-11-08 23:12:25

storm trident 消息成功处理的相关文章

ack是什么，如何使用Ack机制，如何关闭Ack机制，基本实现，STORM的消息容错机制，Ack机制

1.ack是什么 ack 机制是storm整个技术体系中非常闪亮的一个创新点. 通过Ack机制,spout发送出去的每一条消息,都可以确定是被成功处理或失败处理, 从而可以让开发者采取动作.比如在Meta中,成功被处理,即可更新偏移量,当失败时,重复发送数据. 因此,通过Ack机制,很容易做到保证所有数据均被处理,一条都不漏. 另外需要注意的,当spout触发fail动作时,不会自动重发失败的tuple,需要spout自己重新获取数据,手动重新再发送一次 ack机制即, spout发送的每一条消

Storm Trident 详细介绍

一.概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架. 具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data):通过Storm对消息进行计算聚合等预处理:把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析. 1.2 Trident(简介) Trident是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外,它以batch(一组tuples)

Storm Trident API 实践

一.概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架. 具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data).通过Storm对消息进行计算聚合等预处理.把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析. 1.2 Trident(简介) Trident是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外,它以batch(一组tuples)

storm trident function函数

package cn.crxy.trident; import java.util.List; import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.generated.StormTopology; import backtype.storm.tuple.Fields; import backtype.storm.tuple.Values; import storm.trid

Storm 内部消息缓存

这篇文件翻译自 http://www.michael-noll.com/blog/2013/06/21/understanding-storm-internal-message-buffers/ 当进行Storm调优时,理解Storm内部消息队列的配置十分有帮助.这篇文件将说明在Storm 0.8/0.9版本中一个Worker内部的消息通信. Storm Worker进程内部消息传输这里所说的“内部消息”是指单台节点上的一个Worker进程内部的消息.这种通信依赖于Storm内部各种 LMAX

storm trident merger

import java.util.List; import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.generated.StormTopology; import backtype.storm.tuple.Fields; import backtype.storm.tuple.Values; import storm.trident.Stream; import storm.

Storm专题二：Storm Trident API 使用详解

一.概述 Storm Trident中的核心数据模型就是"Stream",也就是说,Storm Trident处理的是Stream,但是实际上Stream是被成批处理的,Stream被切分成一个个的Batch分布到集群中,所有应用在Stream上的函数最终会应用到每个节点的Batch中,实现并行计算,具体如下图所示: 在Trident中有五种操作类型: Apply Locally:本地操作,所有操作应用在本地节点数据上,不会产生网络传输 Repartitioning:数据流重定向,单纯

storm trident 示例

Storm Trident的核心数据模型是一批一批被处理的“流”,“流”在集群的分区在集群的节点上,对“流”的操作也是并行的在每个分区上进行. Trident有五种对“流”的操作: 1. 不需要网络传输的本地批次运算 2. 需要网络传输的“重分布”操作,不改变数据的内容 3. 聚合操作,网络传输是该操作的一部分 4. “流”分组(grouby)操作 5. 合并和关联操作批次本地操作: 批次本地操作不需要网络传输,本格分区(partion)的运算

[翻译][Trident] Storm Trident 详细介绍

1.Trident对storm提供了什么能力?2.Trident在如何最大程度的保证执行topogloy性能方面是非常智能的?3.storm如何保证每个消息都被处理一次? Trident是在storm基础上,一个以realtime 计算为目标的高度抽象. 它在提供处理大吞吐量数据能力的同时,也提供了低延时分布式查询和有状态流式处理的能力. 如果你对Pig和Cascading这种高级批量处理工具很了解的话,那么应该毕竟容易理解Trident,因为他们之间很多的概念和思想都是类似的.Tident提供