Storm介绍及安装部署

本节内容:

  • Apache Storm是什么
  • Apache Storm核心概念
  • Storm原理架构
  • Storm集群安装部署
  • 启动storm ui、Nimbus和Supervisor

一、Apache Storm是什么

Apache Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。

批处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在海量数据处理上得到了广泛的使用。但是,hadoop不擅长实时计算,因为它天然就是为批处理而生的,这也是业界一致的共识。否则最近几年也不会有s4,storm,puma这些实时计算系统如雨后春笋般冒出来啦。

举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计就会有不少损失了。 再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去游泳,但是却发现系统在不遗余力地给他推荐袜子、鞋子,根本对他今天寻找泳镜的行为视而不见,这样商家的利益就有所损失。这是因为后台系统做的是每天一次的全量处理,而且大多是在夜深人静之时做的,那么客户今天白天做的事情要到明天才能反映出来。这也就是为什么需要实时处理的原因。

二、Apache Storm核心概念

  • Nimbus:Storm集群主节点,负责资源分配和任务调度。我们提交任务和截止任务都是在Nimbus上操作的。一个Storm集群只有一个Nimbus节点。
  • Supervisor:Storm集群工作节点,接受Nimbus分配任务,管理所有Worker。
  • Worker:工作进程,每个工作进程中都有多个Task。
  • Task:任务,每个Spout和Bolt都是一个任务,每个任务都是一个线程。
  • Topology:计算拓扑,包含了应用程序的逻辑。
  • Stream:消息流,关键抽象,是没有边界的Tuple序列。
  • Spout:消息流的源头,Topology的消息生产者。
  • Bolt:消息处理单元,可以过滤、聚合、查询数据库。
  • Stream grouping:消息分发策略,一共6种,定义每个Bolt接受何种输入。
  • Reliability:可靠性,Storm保证每个Tuple都会被处理。

三、Storm原理架构

1. Storm集群架构图

Zookeeper集群在Storm集群中的作用:

Zookeeper集群负责Nimbus节点和Supervior节点之间的通信,监控各个节点之间的状态。比如通常我们提交任务的时候是在Nimbus节点上执行的,Nimbus节点通过zk集群将任务分发下去,而Supervisor是真正执行任务的地方。Nimbus节点通过zk集群监控各个Supervisor节点的状态,当某个Supervisor节点出现故障的时候,Nimbus节点就会通过zk集群将那个Supervisor节点上的任务重新分发,在其他Supervisor节点上执行。这就意味着Storm集群也是高可用集群,如果Nimbus节点出现故障的时候,整个任务并不会停止,但是任务的管理会出现影响,通常这种情况下我们只需要将Nimbus节点恢复就可以了。Nimbus节点不支持高可用,这也是Storm目前面临的问题之一。不过一般情况下,Nimbus节点的压力不大,通常不会出现问题。

一般情况下,Zookeeper集群的压力并不大,一般只需要部署3台就够了。Zookeeper集群在Storm集群中逻辑上是独立的,但在实际部署的时候,一般会将zk节点部署在Nimbus节点或Supervisor节点上。

2. 数据处理流程图

storm处理数据的特点:数据源源不断,不断处理。

3. 拓扑图分析

storm中是没有数据存储结构的,我们需要自己设计数据落地接口,指明数据存储到哪一部分中。Storm本身是不存储数据的。

四、Storm集群安装部署

1. 环境信息

主机名 操作系统版本 IP地址 安装软件
log1 CentOS 7.0 114.55.29.86 JDK1.7、zookeeper-3.4.6、apache-storm-1.0.0
log1 CentOS 7.0 114.55.29.241 JDK1.7、zookeeper-3.4.6、apache-storm-1.0.0
log3 CentOS 7.0 114.55.253.15 JDK1.7、zookeeper-3.4.6、apache-storm-1.0.0

2. 安装Zookeeper集群

参见之前的文章《Zookeeper介绍及安装部署》。

3. 安装Storm集群

log1、log2和log3部署storm集群,log1作为Nimbus节点,log2和log3作为surpervisor节点。

(1)下载安装软件并解压

[[email protected] local]# wget http://apache.fayea.com/storm/apache-storm-1.0.0/apache-storm-1.0.0.tar.gz
[[email protected] local]# tar zxf apache-storm-1.0.0.tar.gz

(2)配置storm

[[email protected] ~]# cd /usr/local/apache-storm-1.0.0/
[[email protected] apache-storm-1.0.0]# vim conf/storm.yaml
  • 配置Zookeeper地址(配置Zookeeper的主机名,注意: 如果Zookeeper集群使用的不是默认端口,那么还需要配置storm.zookeeper.port)

  • storm.local.dir: The Nimbus and Supervisor daemons require a directory on the local disk to store small amounts of state (like jars, confs, and things like that). 在配置文件里添加一行:
storm.local.dir: "/usr/local/apache-storm-1.0.0/status"

这个status目录在storm启动的时候会自动创建,当然也可以提前创建好。

  • 配置nimbus.seeds:用于配置主控节点的地址,可以配置多个。

  • 配置supervisor.slots.ports
supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

配置工作节点上的进程端口。你配置一个端口,意味着工作节点上启动一个worker,在实际的生产环境中,我们需要根据实际的物理配置以及每个节点上的负载情况来配置这个端口的数量。在这里每个节点我象征性的配置4个端口。

注意:以上配置,凡是有冒号的地方,冒号后都要有个空格。

log2和log3主机也是同样的配置。拷贝这台机器的storm包到log2和log3主机:

[[email protected] local]# scp -pr apache-storm-1.0.0 [email protected]114.55.29.241:/usr/local/
[[email protected] local]# scp -pr apache-storm-1.0.0 [email protected]114.55.253.15:/usr/local/
  • 对于两台supervisor node,我们额外开启JMX支持,在配置文件中加入如下配置:
supervisor.childopts: -verbose:gc -XX:+PrintGCTimeStamps -XX:+PrintGCDetails -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.port=9998

9998就是用于通过JMX收集supervisior JVM指标的端口。

(3)配置storm环境变量

[[email protected] apache-storm-0.10.0]# vim /etc/profile
export STORM_HOME=/usr/local/apache-storm-0.10.0
export PATH=$STORM_HOME/bin:$PATH
[[email protected] apache-storm-0.10.0]# source /etc/profile

五、启动storm ui、Nimbus和Supervisor

log1节点启动nimbus和storm ui:

[[email protected] ~]# nohup storm ui >/dev/null 2>&1 &
[[email protected] ~]# nohup storm nimbus >/dev/null 2>&1 &

log2和log3主机启动Supervisor节点:

[[email protected] ~]# nohup storm supervisor >/dev/null 2>&1 &
[[email protected] ~]# nohup storm supervisor >/dev/null 2>&1 &

访问ui页面: http://114.55.29.86:8080/

界面简单介绍:

  • Used slots:使用的worker数。
  • Free slots:空闲的worker数。
  • Executors:每个worker的物理线程数。
时间: 2024-08-24 00:29:44

Storm介绍及安装部署的相关文章

Kafka介绍及安装部署

本节内容: 消息中间件 消息中间件特点 消息中间件的传递模型 Kafka介绍 安装部署Kafka集群 安装Yahoo kafka manager kafka-manager添加kafka cluster 一.消息中间件 消息中间件是在消息的传输过程中保存消息的容器.消息中间件在将消息从消息生产者到消费者时充当中间人的作用.队列的主要目的是提供路由并保证消息的传送:如果发送消息时接收者不可用,消息对列会保留消息,直到可以成功地传递它为止,当然,消息队列保存消息也是有期限的. 二.消息中间件特点 1

Zabbix介绍及安装部署

.    zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,zabbix能监视各种网络参数,保证服务器系统的安全运营:并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题. zabbix由2部分构成,zabbix server与可选组件zabbix agent zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux, Solaris,

hue框架介绍和安装部署

大家好,我是来自内蒙古的小哥,我现在在北京学习大数据,我想把学到的东西分享给大家,想和大家一起学习 hue框架介绍和安装部署 hue全称:HUE=Hadoop User Experience 他是cloudera公司提供的一个web框架,和其他大数据框架整合,提供可视化界面 hue的架构 1.hue UI:hue提供一个可视化的web界面 2.hue server:hue的服务器,对外提供一个web的访问 3.hue db:存储整合框架的信息 1.Hue的介绍 HUE=Hadoop User E

3_HA介绍和安装部署

一.hadoop 2.x产生背景 1.hadoop 1.x中hdfs和mr在高可用和扩展性等方面存在问题.2.hdfs存在的问题:NN单点故障,难以应用于在线场景:NN压力过大,内存受限,影响系统扩展性.3.mr存在的问题:1.x难以支持除mr之外的计算框架,如spark和storm(mr一般得到结果时间较长,storm和spark可以很快得到结果). 二.hadoop 1.x与hadoop2.x区别 1.2.x由hdfs.mr和yarn三个分支构成,yarn是分布式的资源管理器(资源包括内存,

Storm集群安装部署步骤【详细版】

作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html 本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出. 1. Storm集群组件 Storm集群中包含两

Elasticsearch介绍及安装部署

本节内容: Elasticsearch介绍 Elasticsearch集群安装部署 Elasticsearch优化 安装插件:中文分词器ik 一.Elasticsearch介绍 Elasticsearch是一个分布式搜索服务,提供Restful API,底层基于Lucene,采用多shard的方式保证数据安全,并且提供自动resharding的功能,加之github等大型的站点也采用 Elasticsearch作为其搜索服务. 二.Elasticsearch集群安装部署 1. 环境信息 主机名

keepalived的介绍和安装部署

keepalived的介绍 作用 keepalived主要针对LVS群聚应用而设计的,提供故障切换和健康检查功能.在非LVS群集环境中,也可用来实现多机热备功能. 故障切换:ha fallover功能,实现LB Master和Backup主机之间故障转移和自动切换 这是针对有两个负载均衡器Director同时工作而采取的故障转移措施.当主负载均衡器(MASTER)失效或出现故障时候,备份负载均衡器(BACKUP)将自动接管主负载均衡器的所有工作:一旦主负载均衡器故障修复,主负载均衡器又会接管回它

Storm笔记整理(三):Storm集群安装部署与Topology作业提交

[TOC] Storm分布式集群安装部署 概述 Storm集群表面类似Hadoop集群.但在Hadoop上你运行的是"MapReduce jobs",在Storm上你运行的是"topologies"."Jobs"和"topologies"是大不同的,一个关键不同是一个MapReduce的Job最终会结束,而一个topology永远处理消息(或直到你kill它). Storm集群有两种节点:控制(master)节点和工作者(wo

SharePoint Online 开发篇:node.js和npm介绍和安装部署

Blog链接:https://blog.51cto.com/13969817 过去的几年中,出现的最重要的开发平台是Node.js和基于npm的开发,SharePoint Framework是这种开发方法的一个示例,本文我们来了解下Node.js.npm和Node Package Manager 是什么? Node.js,是一个建立在Google Chrome JavaScript的引擎(V8引擎)上的服务器端平台.JavaScript引擎的性能已经提高了很多,取决于你在做什么,事实上,它们的性