Storm分布式实时流计算框架相关技术总结

　　Storm作为一个开源的分布式实时流计算框架，其内部实现使用了一些常用的技术，这里是对这些技术及其在Storm中作用的概括介绍。以此为基础，后续再深入了解Storm的内部实现细节。

1. Zookeeper集群
　　Zookeeper是一个针对大型分布式系统的可靠协调服务系统，其采用类似Unix文件系统树形层次结构的数据模型（如：/zoo/a，/zoo/b），节点内可存储少量数据（<1M，当节点存储大数据量时，实际应用中可能出现同步问题）。

　　Zookeepr的高可靠性服务是通过配置Zookeeper集群实现的，官方建议Zookeeper集群至少包含3个节点，每个节点上存储一份数据，主节点挂掉后可以重新选取一个节点作为主节点。只要保证集群内有一半以上的节点存活，集群就可对外提供服务。

　　Zookeeper支持的操作类型有：
　　（1）创建树节点znode；
　　（2）删除树节点znode；
　　（3）读取树节点znode的内容和其子节点的内容；
　　（4）当节点内容发生变化或子节点增删时触发消息通知更新消息；
　　（5）支持瞬时节点（EPHEMERAL），创建节点的进程退出后节点自动被删除。

　　Storm中使用Zookeeper主要用于Storm集群各节点的分布式协调工作，具体功能如下：
　　（1）存储客户端提供的topology任务信息(即storm实时流程序)，nimbus负责将任务分配信息写入Zookeeper，supervisor从Zookeeper上读取任务分配信息；
　　（2）存储supervisor和worker的心跳（包括它们的状态），使得nimbus可以监控整个集群的状态，从而重启一些挂掉的worker；
　　（3）存储整个集群的所有状态信息和配置信息。

　　关于storm在zookeeper的详细目录结构请移步：Twitter Storm源代码分析之ZooKeeper中的目录结构

2. Thrift服务框架
　　Thrift是一个跨语言的可扩展的服务框架，它通过一个中间语言(IDL，接口定义语言)来定义RPC的接口和数据类型，然后通过一个编译器生成RPC客户端和服务器通信的无缝跨编程语言。

　　Storm中Thrift的应用场景：
　　（1）客户端向nimbus提交topology任务；
　　（2）supervisor从nimbus下载topology任务（代码和序列化文件）；
　　（3）storm ui从nimbus获取topology运行的统计信息。

3. ZeroMQ消息队列——Netty
　　ZeroMQ是一个基于消息的嵌入式网络编程库，可作为并发框架连接多个应用程序，支持N-to-N的连接，多种工作模式（Request-reply，Publish-subscribe，Pipeline等），支持多种语言，ZeroMQ使得编写高性能网络应用程序极为简单。

　　Storm中ZeroMQ的应用场景：Spout与Bolt、Bolt与Bolt之间tuple消息的传输。

4. Java序列化
　　Java序列化技术可以实现将Java对象保存为二进制文件，而反序列化过程则可以在另一个Java进程中将此二进制文件恢复为Java对象，其缺点在于不能很好的解决版本变化。

　　Storm中Java序列化的应用场景：
　　（1）客户端提交topology任务后，Storm将topology任务序列化并发送给nimbus；
　　（2）supervisor从Zookeeper取得任务信息后，从nimbus下载序列化文件和jar包，启动worker进程并反序列化得到提交任务时的topology对象。

5. 总结
　　以上只是对Storm中所使用到的Zookeeper集群、Thrift服务框架、ZeroMQ消息队列、Java序列化技术及其在Storm中的应用情况的简单介绍，后续再进一步结合Storm的源码进行深入分析。以上内容，如果不对之处，欢迎大家指正。

时间： 2024-10-19 16:23:19

Storm分布式实时流计算框架相关技术总结

Storm分布式实时流计算框架相关技术总结

Storm分布式实时流计算框架相关技术总结的相关文章

.Spark Streaming（上）--实时流计算Spark Streaming原理介

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming介绍

Java大数据实战 Storm构建实时流处理

(版本定制)第5课：基于案例分析Spark Streaming流计算框架的运行源码

基于案例一节课贯通Spark Streaming流计算框架的运行源码

Spark定制班第5课：基于案例一节课贯通Spark Streaming流计算框架的运行源码

storm RollingTopWords 实时top-N计算任务窗口设计

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

基于案例贯通 Spark Streaming 流计算框架的运行源码