Storm的aril,Storm-starter及macen

tail的特性

Tail适合文本源

不仅读取数据源,而且监听 一旦有变化,会把增量数据读取

类似与tomcat的日志输出

如果是Message Queue源的话,该特性没必要。

Storm-starter

官方提供的例子包

最好的学习资料

https://github.com/nathanmarz/storm-starter  下载地址

Maven:打包程序,比ant强大

mvn eclipse:eclipse

Fatjar   eclipse 插件,特点: 慢,而且只能设一个main类

Maven的安装配置

下载maven直接解压

配置conf/setting

<localRepository>D:/Program Files/apache-maven-3.0.5-bin/maven_repo</localRepository>

<activeProfiles>

<activeProfiles>local</activeProfiles>

</activeProfiles>

<pluginGroups>

<pluginGroups>org.mortbay.jetty</pluginGroups>

</pluginGroups>

并添加到path中去

与Eclipse整合指定目录

指定配置文件

下载的项目中没有.classpath 可以通过mvn生成

mav  eclipse:eclipse

下载所需jar包 并生成eclipse所需要的文件

-----------------------------

stream grouping就是用来定义一个stream应该如果分配给Bolts上面的多个Tasks。

storm里面有6种类型的stream grouping:

1. Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证每个bolt接收到的tuple数目相同。轮询,平均分配。

2. Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts, 而不同的userid则会被分配到不同的Bolts。

3. All Grouping: 广播发送, 对于每一个tuple, 所有的Bolts都会收到。

4. Global Grouping: 全局分组, 这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。

5. Non Grouping: 不分组, 这个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果,不平均分配。

6. Direct Grouping: 直接分组, 这是一种比较特别的分组方法,用这种分组意味着消息的发送者举鼎由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来或者处理它的消息的taskid (OutputCollector.emit方法也会返回taskid)

时间: 2024-11-09 02:59:14

Storm的aril,Storm-starter及macen的相关文章

Storm入门(Storm程序)

Storm简介 Storm是一个分布式实时流式框架,大多应用于以下场景:实时分析.在线机器学习.流式计算.分布式RPC ETL(BL分析)等等.同类型的框架有hadoop和spark.hadoop侧重于海量数据的离线计算,spark则更擅长实时迭代计算.要注意的是,storm并不直接处理数据,而是把我们的业务程序(逻辑)放在很多服务器上并发运行,待处理消息被分散到很多服务器上并发处理,以此扩展程序的负载能力. Direction 简单来说的话,Storm框架包含两个部分.一个是Storm程序,一

1 storm基本概念 + storm编程规范及demo编写

本博文的主要内容有 .Storm的单机模式安装 .Storm的分布式安装(3节点)   .No space left on device .storm工程的eclipse的java编写 http://storm.apache.org/ 分布式的一个计算系统,但是跟mr不一样,就是实时的,实时的跟Mr离线批处理不一样. 离线mr主要是做数据挖掘.数据分析.数据统计和br分析. Storm,主要是在线的业务系统.数据像水一样,源源不断的来,然后,在流动的过程中啊,就要把数据处理完.比如说,一些解析,

【Twitter Storm系列】Storm环境配置及吞吐量测试调优--个人理解

1.硬件配置信息 6台服务器,2个CPU,96G,6核,24线程 2.集群信息 Storm集群:1个nimbus,6个supervisor nimbus:192.168.7.127 supervisor: 192.168.7.128 192.168.7.129 192.168.7.130 192.168.7.131 192.168.7.132 192.168.7.133 Zookeeper集群: 3个节点 192.168.7.127:2181, 192.168.7.128:2181, 192.1

Storm 起步 Zookeeper Storm 单机部署

注意: 仅仅记录个人开发基本搭建,保证storm运行起来,目前不能保证性能以及稳定性 从其它网站各路高手记录中都需要一下四个标准套装 zeromq jzmq storm zookeeper 实际安装过程中没有发现zeromq和jzmq的用途,因此安装了Zqromq后未安装jzmq,可能是研究不够深入,后续继续发现. 一.安装Zookeeper https://zookeeper.apache.org/ 下载最新版,解压到指定目录,设置环境变量 export ZOOKEEPER_HOME=zook

安装配置storm 第二步 配置Storm集群(二)

1.编辑host文件  vi  /etc/hosts   三台主机同时修改 192.168.2.20 storm01 192.168.2.21 storm02 192.168.2.22 storm03 2.主节点上(storm)配置storm (1)解压 apache-storm-1.0.3 (2)设置环境变量 : vi ~/.bash_profile STORM_HOME=/usr/local/apps/apache-storm-1.0.3 export STORM_HOME PATH=$ST

Storm系列之一——Storm Topology并发

1.是什么构成一个可运行的topology? worker processes(worker进程),executors(线程)和tasks. 一台Storm集群里面的机器可能运行一个或多个worker进程,一个worker进程运行一个特定topology的executors. 一个worker进程可能运行一个或多个executors.每个executor是一个线程.一个executor运行同一个spout或者bolt的一个或多个task. 一个task完成具体的数据处理. 一个worker进程执

Storm框架:Storm整合springboot

我们知道Storm本身是一个独立运行的分布式流式数据处理框架,Springboot也是一个独立运行的web框架.那么如何在Strom框架中集成Springboot使得我们能够在Storm开发中运用Spring的Ioc容器及其他如Spring Jpa等功能呢?我们先来了解以下概念:Storm主要的三个Component:Topology.Spout.Bolt.Topology作为主进程控制着spout.bolt线程的运行,他们相当于独立运行的容器分布于storm集群中的各个机器节点.SpringA

Storm入门学习随记

推荐慕课网视频:http://www.imooc.com/video/10055 ====Storm的起源. Storm是开源的.分布式.流式计算系统 什么是分布式呢?就是将一个任务拆解给多个计算机去执行,让许多机器共通完成同一个任务, 把这个多机的细节给屏蔽,对外提供同一个接口.同一个服务,这样的系统就是分布式系统. 在多年以前并没有非常范用的分布式系统,即使存在,也都是限定在指定的领域, 当然,也有人尝试从中提取出共通的部分,发明一个通用的分布式系统,但是都没有很好的结果. 后来,Googl

Centos6.5 storm单机安装

Centos6.5 storm单机安装 本篇幅讲述Twitter Storm安装配置,也作为自己的笔记. storm的官方安装说明(e文):https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster storm的安装分为单机版和集群版,只是配置稍微有点区别,大致一样. 要使用storm首先要安装以下工具: python.zookeeper.zeromq.jzmq.storm 第一步,安装Python2.7.2 wget