Apache Storm 1.1.0 中文文档 | ApacheCN

前言

 
Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 
官方文档: http://storm.apache.org 
中文文档: http://storm.apachecn.org

ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档 的活动,整体 翻译进度 为 96%. 
感谢大家参与到该活动中来 
感谢无私奉献的 贡献者,才有了这份 Storm 1.1.0 中文文档 
感谢一路有你的陪伴,我们才可以做的更好,走的更快,走的更远,我们一直在努力 。。。

网页地址: http://storm.apachecn.org/releases/cn/1.1.0/ 
github: https://github.com/apachecn/storm-doc-zh

如果您有任何意见建议,问题反馈,或者也想参与该翻译,或者想成为该项目的负责人,麻烦联系企鹅: 1042658081 
技术交流企鹅群: 214293307

学习方法

  1. Storm 怎么学习,怎么入门 ?

    我只能悄悄的告诉你,跟着中文文档走,把文档看一遍先,文档中的概念,例子什么的先弄懂,基本上就入门了

  2. Storm 如何成为大神呢?

    先看看大佬们的 blog 学习下,多在群里面跟别人讨论下

文档内容目录

NOTE(注意)

在最新版本中, class packages 已经从 “backtype.storm” 改变成 “org.apache.storm” 了, 所以使用旧版本编译的 topology 代码不会像在 Storm 1.0.0 上那样运行了. 通过以下配置提供向后的兼容性

client.jartransformer.class: "org.apache.storm.hack.StormShadeTransformer"

如果要运行使用较旧版本 Storm 编译的代码, 则需要在 Storm 安装中添加上述配置. 该配置应该添加到您用于提交 topologies(拓扑)的机器中.

更多细节, 请参阅 https://issues.apache.org/jira/browse/STORM-1202.

Storm 基础

Layers on Top of Storm

Storm Trident

Trident 是 Storm 的另一个 interface(接口). 
它提供了 exactly-once(仅且一次)处理, “transactional(事务性的)” datastore persistence(数据存储持久化), 以及一些常见的 stream analytics operations(流式分析操作).

  • Trident 教程 – 基础的概念和预排工作
  • Trident API 概述 – 针对 transforming(转换)和 orchestrating 数据的操作
  • Trident State(状态) – exactly-once(仅且一次)处理以及 fast(快速的), persistent aggregation(持久化的聚合)
  • Trident spouts – transactional(事务性的)和 non-transactional(非事务性的)数据引入
  • Trident RAS API – 与 Trident 一起使用 Resource Aware Scheduler .

Storm SQL

该 Storm SQL 的集成可以让用户在 Storm 的 streaming data(流式数据)上来运行 SQL 查询.

NOTE(注意): Storm SQL 是一个 experimental(实验性的) 功能, 所以 Storm SQL 的结构和所支持的功能在以后可能会发生变化. 
但是小的变化不会影响用户体验. 在引入 UX 更改时, 我们会及时通知用户.

Flux

Storm 安装和部署

Storm 中级

Storm 调试

Storm 与外部系统, 以及其它库的集成

Container, Resource Management System Integration

Storm 高级

结束感言

翻译过程中,大家有说有笑,有时候大家自己也不太懂,关键字啥的都会搞错,完全看不懂,一脸懵逼,醉了 。。。 
但总算是把这份中文文档给弄好了吧,也算是对大家,或者对自己有一个交代,没有半途而废吧!~~~ 
希望大家可以一起走的更快,走的更远 。。。

如果您有任何意见建议,问题反馈,或者也想参与该翻译,或者想成为该项目的负责人,麻烦联系企鹅: 1042658081 
技术交流企鹅群: 214293307

时间: 2024-10-13 20:56:57

Apache Storm 1.1.0 中文文档 | ApacheCN的相关文章

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动 创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources(数据源)创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkDataFrame 操作 Selecting rows(行), columns(列) Groupin

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图 创建Datasets RDD的互操作性 使用反射推断Schema 以编程的方式指定Schema Aggregatio

Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

Structured Streaming 编程指南 概述 快速示例 Programming Model (编程模型) 基本概念 处理 Event-time 和延迟数据 容错语义 API 使用 Datasets 和 DataFrames 创建 streaming DataFrames 和 streaming Datasets Input Sources (输入源) streaming DataFrames/Datasets 的模式接口和分区 streaming DataFrames/Dataset

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久性 Checkpointing Accumulators, Broadcas

Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN

集群模式概述 该文档给出了 Spark 如何在集群上运行.使之更容易来理解所涉及到的组件的简短概述.通过阅读 应用提交指南 来学习关于在集群上启动应用. 组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序). 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者

Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN

GraphX Programming Guide 概述 入门 属性 Graph 示例属性 Graph Graph 运算符 运算符的汇总表 Property 运算符 Structural 运算符 Join 运算符 邻域聚合 聚合消息 (aggregateMessages) Map Reduce Triplets Transition Guide (Legacy) 计算级别信息 收集相邻点 Caching and Uncaching Pregel API Graph 建造者 Vertex and E

Apache Spark 2.2.0 中文文档 - Submitting Applications | ApacheCN

Submitting Applications 在 script in Spark的 bin 目录中的spark-submit 脚本用与在集群上启动应用程序.它可以通过一个统一的接口使用所有 Spark 支持的 cluster managers,所以您不需要专门的为每个cluster managers配置您的应用程序. 打包应用依赖 如果您的代码依赖了其它的项目,为了分发代码到 Spark 集群中您将需要将它们和您的应用程序一起打包.为此,创建一个包含您的代码以及依赖的 assembly jar

Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)

Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的优势 2.4 不适合用 RDDs 的应用 3 Spark 编程接口 3.1 Spark 中 RDD 的操作 3.2 举例应用 3.2.1 线性回归 3.2.2 PageRank 4 表达 RDDs 5

Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置

目的 这份文档描写叙述了怎样安装.配置和管理从几个节点到有数千个节点的Hadoop集群. 玩的话,你可能想先在单机上安装.(看单节点配置). 准备 从Apache镜像上下载一个Hadoop的稳定版本号. 安装 安装一个Hadoop集群,一般包含分发软件到全部集群中的机器上或者是安装RPMs. 一般地,集群中的一台机器被唯一地设计成NameNode,还有一台机器被设置成ResourceManager.这是master(主). 集群中剩下的机器作为DataNode 和 NodeManager.这些是