storm的并发和消息保障性

Storm并发配置的优先级:

defaults.yaml < storm.yaml < topology-specific configuration < internal  component-specific configuration < external component-specific configuration

通过下图来理解并行度的一些配置:

消息的可靠处理机制

如何保证消息不被丢失?即什么条件下,storm会认为从一个spout发送出来的消息被完整处理了呢?

1.tuple tree不再生长

2.树中的任何消息被标识为 已处理。

同时被满足时即认为消息处理成功。

有三种方法可以去掉消息的可靠性:
1、将参数Config.TOPOLOGY_ACKERS设置为0,通过此方法,当Spout发送一
个消息的时候,它的ack方法将立刻被调用;
2、Spout发送一个消息时,不指定此消息的messageID。当需要关闭特定消息

可靠性的时候,可以使用此方法;
3、最后,如果你丌在意某个消息派生出来的子孙消息的可靠性,则此消息派生
出来的子消息在发送时丌要做锚定,即在emit方法中丌指定输入消息。因为这些
子孙消息没有被锚定在任何tuple tree中,因此他们的失败丌会引起任何spout
重新发送消息。

时间: 2024-10-11 06:14:25

storm的并发和消息保障性的相关文章

Storm的并发概念

在Spouts和bolts中出现了 Executors 执行器和Tasks 任务的概念 在Toplogy 中有个workers,Toplogy运行在workers上面,Workers 上面一般指进程数 Storm集群中的一台机器 可以运行一个或多个workers process, workers大小可以设置和toplogy无关.一个workers上面可以运行多个toplogy workers process是进程的概念,一个workers可以执行特定toplogy上的Executors. 一个或

storm的并发机制

storm计算支持在多台机器上水平扩容,通过将计算切分为多个独立的tasks在集群上并发执行来实现. 一个task可以简单地理解:在集群某节点上运行的一个spout或者bolt实例. topology的组成部分:Nodes(服务器):配置在一个storm集群中的服务器,会执行topology的一部分运算.一个storm集群可以包括一个或者多个工作node; Workers(JVM虚拟机):一个NOde上相互独立运行的JVM进程.每个Node可以配置运行一个或者多个worke.一个topology

《UNIX网络编程》TCP客户端服务器:并发、消息回显

经过小小改动,把前面基础的例子做出一点修改. 并发服务器,服务器每accept一个请求就fork()一个新的子进程. 编译运行方法同前一篇. /*client_tcp.c*/ #include <stdio.h> #include <unistd.h> #include <stdlib.h> #include <sys/types.h> #include <sys/socket.h> #include <sys/un.h> #incl

Storm系列之一——Storm Topology并发

1.是什么构成一个可运行的topology? worker processes(worker进程),executors(线程)和tasks. 一台Storm集群里面的机器可能运行一个或多个worker进程,一个worker进程运行一个特定topology的executors. 一个worker进程可能运行一个或多个executors.每个executor是一个线程.一个executor运行同一个spout或者bolt的一个或多个task. 一个task完成具体的数据处理. 一个worker进程执

storm入门教程 第四章 消息的可靠处理【转】

4.1 简介 storm可以确保spout发送出来的每个消息都会被完整的处理.本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理. 4.2 理解消息被完整处理 一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建. 我们来思考一下流式的“单词统计”的例子: storm任务从数据源(Kestrel queue)每次读取一个完整的英文句子:将这个句子分解为独立的单词,最后,实时的输出每个单词以及它出现过

storm并发机制,通信机制,任务提交

一.storm的并发 (1)Workers(JVMs):在一个物理节点上可以运行一个或多个独立的JVM进程.一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上),所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology (2)Executors(threads):在一个workerJVM进程中运行着多个Java线程.一个executor线程可以执行一个或多个tasks.但一般默认每个executor只执行一个t

Storm 内部消息缓存

这篇文件翻译自 http://www.michael-noll.com/blog/2013/06/21/understanding-storm-internal-message-buffers/ 当进行Storm调优时,理解Storm内部消息队列的配置十分有帮助.这篇文件将说明在Storm 0.8/0.9版本中一个Worker内部的消息通信. Storm Worker进程内部消息传输 这里所说的“内部消息”是指单台节点上的一个Worker进程内部的消息.这种通信依赖于Storm内部各种 LMAX

Storm入门学习随记

推荐慕课网视频:http://www.imooc.com/video/10055 ====Storm的起源. Storm是开源的.分布式.流式计算系统 什么是分布式呢?就是将一个任务拆解给多个计算机去执行,让许多机器共通完成同一个任务, 把这个多机的细节给屏蔽,对外提供同一个接口.同一个服务,这样的系统就是分布式系统. 在多年以前并没有非常范用的分布式系统,即使存在,也都是限定在指定的领域, 当然,也有人尝试从中提取出共通的部分,发明一个通用的分布式系统,但是都没有很好的结果. 后来,Googl

STORM在线业务实践-集群空闲CPU飙高问题排查(转)

最近将公司的在线业务迁移到Storm集群上,上线后遇到低峰期CPU耗费严重的情况.在解决问题的过程中深入了解了storm的内部实现原理,并且解决了一个storm0.9-0.10版本一直存在的严重bug,目前代码已经合并到了storm新版本中,在这篇文章里会介绍这个问题出现的场景.分析思路.解决的方式和一些个人的收获. 背景 首先简单介绍一下Storm,熟悉的同学可以直接跳过这段. Storm是Twitter开源的一个大数据处理框架,专注于流式数据的处理.Storm通过创建拓扑结构(Topolog