大数据学习之Storm实时计算概述及安装部署33

一:Storm概述

网址:http://storm.apache.org/

ApacheStorm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣!

Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组。它具有可扩展性,容错性,可确保您的数据得到处理,并且易于设置和操作。

Storm集成了您已经使用的排队和数据库技术。Storm拓扑消耗数据流并以任意复杂的方式处理这些流,然后在计算的每个阶段之间重新划分流。阅读教程中的更多内容。

离线计算是什么?

批量获取数据、批量的传输数据、批量的存储数据、周期性计算数据、数据可视化

flume批量获取数据、sqoop批量传输、hdfs/hive/hbase批量存储、mr/hive计算数据、BI

实时计算是什么?

数据实时产生、数据实时传输、数据实时计算、实时展示

flume实时获取数据、kafka实时数据存储、Storm/JStorm实时计算、实时展示(dataV/quickBI)

二:Storm与Hadoop

  


hadoop


storm


角色


JobTracker


Nimbus


TaskTracker


Supervisor


Child


Worker


应用名称


Job


Topology


编程接口


Mapper/Reducer


Spout/Bolt

三:storm编程模型

tuple:元祖

是消息传输的基本单元。

Spout:水龙头

storm的核心抽象。拓扑的流的来源。Spout通常从外部数据源读取数据。转换为内部的源数据。

主要方法:nextTuple() -》 发出一个新的元祖到拓扑。

      ack()

      fail()

Bolt:转接头

Bolt是对流的处理节点。Bolt作用:过滤、业务、连接运算。

Topology:拓扑

是一个实时的应用程序。

永远运行除非被杀死。

Spout到Bolt是一个连接流...

storm流式计算

hadoop与storm兼容性

闲聊:。。。。

spark-core

spark-sql离线计算

spark-streaming流式计算

一个团队开发 没有兼容性问题

spark团队:我要做一栈式开发平台!

但凡涉及到大数据计算 我都能搞定!

spark替代了mapreduce

spark没有底层存储

依赖hdfs

hdfs/mr............

完善整个生态圈系统!

mapreduce思想、编程 、sqoop->mr hive->mr hbasemr

dfs/mapreduce/bigtable

java/scala...

四:Storm集群安装部署

1)准备工作

zk01 zk02 zk03

storm01 storm02 storm03

2)下载安装包

http://storm.apache.org/downloads.html

3)上传

4)解压

5)修改配置文件

设置环境变量~/.bash_profile

$ vi storm.yaml

# 设置Zookeeper的主机名称

storm.zookeeper.servers:

- "bigdata11"

- "bigdata12"

- "bigdata13"

# 设置主节点的主机名称

nimbus.seeds: ["bigdata11"]

# 设置Storm的数据存储路径(需要自己提前创建)

storm.local.dir: "/root/training/storm/data"

# 设置Worker的端口号

supervisor.slots.ports:

- 6700

- 6701

- 6702

- 6703

分发到bigdata12 和bigdata13,还有~/.bash_profile也要分发

 

6)启动nimbus

$ storm nimbus &

7) 启动supervisor

$ storm supervisor &

8)启动ui界面 端口8080

$ storm ui

Storm命令行操作

1)查看命令帮助

storm help

2)查看版本

storm version

3)运行storm程序

storm jar [/路径/.jar][全类名][拓扑名称]

4)查看当前正在运行拓扑及其状态

storm list

5)终止拓扑程序

storm kill [拓扑名称]

6)激活拓扑程序

storm activate [拓扑名称]

7)禁止拓扑程序

storm deactivate [拓扑名称]

原文地址:https://www.cnblogs.com/hidamowang/p/10981271.html

时间: 2024-10-11 13:01:32

大数据学习之Storm实时计算概述及安装部署33的相关文章

大数据学习之Storm实时统计网站访问量案例35

案例一:统计网站访问量(实时统计)   实时流式计算框架:storm 1)spout 数据源,接入数据源 本地文件如下 编写spout程序: package pvcount; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader;

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据学习笔记7·城市计算(1)

前言 众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

大数据学习笔记4·社会计算中的大数据(2)

本篇继续讨论对用户移动规律的理解:结合地理建模和矩阵分解来做兴趣点推荐. 位置推荐是一类非常受欢迎的应用.在位置推荐中,我们需要理解用户的潜在兴趣并熟悉用户所处的环境.然后,我们就可以根据用户的兴趣和位置的属性发现用户可能感兴趣的地点.与普通推荐任务相比,地理位置在位置推荐中是改进推荐性能的一个重要因素. 在前面一篇中,我们讨论了如何恢复用户行为数据用于移动规律的理解.我们发现,用户移动行为通常集中在像家庭.工作场所和最喜欢的餐馆这样的重要地点.而且,两个地点之间的距离通常很短.所以,我们想要利

大数据学习笔记3·社会计算中的大数据(1)

背景信息 什么是用户行为数据,用户行为数据是怎么积累的.为什么我们需要研究用户理解以及为什么用户理解这么重要.在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作.例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点.在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目. 这张图展示了每分钟用户在一些网站上产生的数据量. 用户数据是怎么样收集的 二十多年之前,那时候普适计算的概念才刚刚被提出来.马克.维瑟提出了普适计算的概念.那时候已经有了大型机和个人计算机,人们

大数据学习笔记5·社会计算中的大数据(3)

前两篇文章介绍了我们在用户移动规律的理解方面的研究工作,包括如何处理用户轨迹中的缺失数据以及如何为用户推荐感兴趣的位置.在这一部分,我将展示我们在用户特征研究方面的研究项目. LifeSpec 首先,我想介绍我们近期开展的LifeSpec项目.这个项目的目标是利用社交网络中的用户数据来探索城市生活方式的方方面面. 我们从多个社交网络收集了数据,包括街旁,微博,图书和电影评论网站豆瓣,以及著名的餐馆评论网站点评.我们收集的数据覆盖了超过140万用户,这些用户在我们的数据集中至少有两个账号. 右边这

大数据学习线路图

近期开始大数据的学习,在学习之前给给自己定义了一个大数据学习路线 大数据技术学习路线指南 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明二.分布式文件系统HDFS,是数据库管理员的基础课程1.分布式文件系统HDFS简介2.HDFS的系统组成介

大数据学习路线

偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为! 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明 二.分布式文件系统HDFS,是数据库管理员的基础课程 1.分布式文件系统HDFS简介2.HDFS的系统组成介绍3.HDFS的组成

大数据学习路线图 让你精准掌握大数据技术学习?

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java