Apache Storm 官方文档 —— Trident Spouts

转载自并发编程网 – ifeve.com本文链接地址: Apache Storm 官方文档 —— Trident Spouts

与一般的 Storm API 一样,spout 也是 Trident 拓扑的数据来源。不过,为了实现更复杂的功能服务,Trident Spout 在普通的 Storm Spout 之上另外提供了一些 API 接口。

数据源、数据流以及基于数据流更新 state(比如数据库)的操作,他们之间的耦合关系是不可避免的。Trident State 一文中有这方面的详细解释,理解他们之间的这种联系对于理解 spout 的运作方式非常重要。

Trident 拓扑中的大部分 spout 都是非事务型 spout。在 Trident 拓扑中可以使用普通的 IRichSpout 接口来创建数据流:

TridentTopology topology = new TridentTopology();
topology.newStream("myspoutid", new MyRichSpout());

Trident 拓扑中的所有 spout 都必须有一个唯一的标识,而且这个标识必须在整个 Storm 集群中都是唯一的。Trident 需要使用这个标识来存储 spout 从 ZooKeeper 中消费的元数据(metadata),包括 txid 以及其他相关的 spout 元数据。

你可以使用以下配置项来设置用于存储 spout 元数据的 ZooKeeper 地址(一般情况下不需要设置以下选项,因为 Storm 默认会直接使用集群的 ZooKeeper 服务器来存储数据 —— 译者注):

  1. transactional.zookeeper.servers:ZooKeeper 的服务器列表
  2. transactional.zookeeper.port:ZooKeeper 集群的端口
  3. transactional.zookeeper.root:元数据在 ZooKeeper 中存储的根目录。元数据会直接存储在该设置目录下。

管道

默认情况下,Trident 每次处理只一个 batch,知道该 batch 处理成功或者失败之后才会开始处理其他的 batch。你可以通过将 batch 管道化来提高吞吐率,降低每个 batch 的处理延时。同时处理的 batch 的最大数量可以通过topology.max.spout.pending 来进行配置。

不过,即使在同时处理多个 batch 的情况下,Trident 也会按照 batch 的顺序来更新 state。例如,假如你正在处理一个将全局计数结果整合并更新到数据库中的任务,那么在你向数据库中更新 batch1 的计数结果时,你同时可以继续处理 batch2、batch3 甚至 batch10 的计数工作。不过,Trident 只会在 batch1 的 state 更新结束之后才会处理后续 batch 的 state 更新操作。这是实现恰好一次处理的语义的必要基础,我们已经在 Trident State 一文中讨论了这一点。

Trident spout 类型

下面列出了一些可用的 spout API 接口:

  1. ITridentSpout:这是最常用的 API,支持事务型和模糊事务型的语义实现。不过一般会根据需要使用它的某个已有的实现,而不是直接实现该接口。
  2. IBatchSpout:非事务型 spout,每次会输出一个 batch 的 tuple。
  3. IPartitionedTridentSpout:可以从分布式数据源(比如一个集群或者 Kafka 服务器)读取数据的事务型 spout。
  4. OpaquePartitionedTridentSpout:可以从分布式数据源读取数据的模糊事务型 spout。

当然,正如这篇教程的开头提到的,除了这些 API 之外,你还可以使用普通的 IRichSpout

时间: 2024-10-10 21:21:13

Apache Storm 官方文档 —— Trident Spouts的相关文章

Apache Storm 官方文档 —— Trident State

转载自并发编程网 – ifeve.com本文链接地址: Apache Storm 官方文档 -- Trident State Trident 中含有对状态化(stateful)的数据源进行读取和写入操作的一级抽象封装工具.这个所谓的状态(state)既可以保存在拓扑内部(保存在内存中并通过 HDFS 来实现备份),也可以存入像 Memcached 或者 Cassandra 这样的外部数据库中.而对于 Trident API 而言,这两种机制并没有任何区别. Trident 使用一种容错性的方式实

Storm官方文档使用向导

Storm官方文档分为几个部分: 第一部分,主要是有关Storm的一些入门介绍,具体涉及四个子项:前言.使用教程.环境安装.工程示例 第二部分,主要是一些专题介绍,针对Storm框架的一些核心内容进行深入讲解.因此,相对于第一部分而言,要深入一些,具体涉及三个子项:使用指南.Java doc.FAQ 第三部分,介绍如何从社区中获取帮助. 第四部分,介绍Storm周边生态. 对于前两部分内容,咱们后续单独介绍,本篇重点说明如何充分利用社区资源来解决我们日常使用过程中遇到的问题.利用邮件列表跟踪St

hbase官方文档(转)

Apache HBase™ 参考指南  HBase 官方文档中文版 Copyright © 2012 Apache Software Foundation.保留所有权利. Apache Hadoop, Hadoop, MapReduce, HDFS, Zookeeper, HBase 及 HBase项目 logo 是Apache Software Foundation的商标. Revision History Revision 0.95-SNAPSHOT 2012-12-03T13:38 中文版

(一)Kafka0.8.2官方文档中文版系列-入门指南

写在前面的话 本系列文章仅仅代表个人的观点,结合自己的学习.使用经验,将kafka0.8.2官方文档,进行翻译,目录结构按照官方文档进行排版. 目的: 系统梳理下kafka知识点,从整体上重新认识下kafka 与广大网友进行交流,内容中难免有不合适的地方,还请大家不吝赐教,我会及时更正 尽一点点微薄之力,去帮助一些人,大家共同进步 一.Getting Started 1.1  Introduction(简介) Kafka是一个分布式.分区的.数据备份的日志收集系统.Kafka使用了一种的独特的方

Spring Boot 官方文档入门及使用

个人说明:本文内容都是从为知笔记上复制过来的,样式难免走样,以后再修改吧.另外,本文可以看作官方文档的选择性的翻译(大部分),以及个人使用经验及问题. 其他说明:如果对Spring Boot没有概念,请先移步上一篇文章 Spring Boot 学习.本篇原本是为了深入了解下Spring Boot而出现的. 另外,Spring Boot 仍然是基于Spring的,建议在赶完工之后深入学习下Spring,有兴趣可以看看我的 Spring 4 官方文档学习(十一)Web MVC 框架 .欢迎探讨,笑~

Hive官方文档

Hive官方文档 内容列表 Cloudera制作的Hive介绍视频 安装与配置 系统需求 安装Hive发行版 从Hive源码编译 运行Hive 配置管理概览 运行时配置 Hive, Map-Reduce 与本地模式 错误日志 DDL 操作 元数据存储 DML 操作 SQL 操作 查询示例 SELECTS 和 FILTERS GROUP BY JOIN MULTITABLE INSERT STREAMING Simple Example Use Cases MovieLens User Ratin

hBase官方文档以及HBase基础操作封装类

HBase 官方文档 0.97 http://abloz.com/hbase/book.html HBase基本操作 package cn.crxy.spider.utils; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HColum

【Docker官方文档】理解Docker

本文来自Docker的官方文档,详细介绍了Docker的体系结构.重要概念.内部工作机理等内容,推荐不了解Docker内部原理的同学阅读. 什么是Docker? Docker是一个用于开发.交付和运行应用的开放平台,Docker设计用来更快的交付你的应用程序. Docker可以将你的应用程序和基础设施层隔离,并且还可以将你的基础设施当作程序一样进行管理.Docker可以帮助你更块地打包你代码.测试以及部署,并且也可以减少从编写代码到部署运行代码的周期. Docker将一个轻量级的容器虚拟化平台和

[转]Commons IO 官方文档

原文地址:http://ifeve.com/commons-io/ 本文翻译自 Commons IO 官方文档 译者:MagicWolf Common IO 是一个工具库,用来帮助开发IO功能 它包括6个主要部分 Utility classes – 包括一些静态方法来执行常用任务 Input – InputStream 和 Reader 实现 Output – OutputStream 和 Writer 实现 Filters – 多种文件过滤器实现(定义了 IOFileFilter接口,同时继承