《OD学storm》20160827

http://www.cnblogs.com/lujinhong2/p/4686512.html

http://blog.csdn.net/paul_wei2008/article/details/20830329

http://shiyanjun.cn/archives/1472.html

一、topology拓扑图

Storm在集群上运行一个Topology时,主要通过以下3个实体来完成Topology的执行工作:
(1)Worker(进程)
(2)Executor(线程)
(3)Task

1个worker进程执行的是1个topology的子集(注:不会出现1个worker为多个topology服务)。1个worker进程会启动1个或多个executor线程来执行1个topology的component(spout或bolt)。因此,1个运行中的topology就是由集群中多台物理机上的多个worker进程组成的。

executor是1个被worker进程启动的单独线程。每个executor只会运行1个topology的1个component(spout或bolt)的task(注:task可以是1个或多个,storm默认是1个component只生成1个task,executor线程里会在每次循环里顺序调用所有task实例)。

task是最终运行spout或bolt中代码的单元(注:1个task即为spout或bolt的1个实例,executor线程在执行期间会调用该task的nextTuple或execute方法)。topology启动后,1个component(spout或bolt)的task数目是固定不变的,但该component使用的executor线程数可以动态调整(例如:1个executor线程可以执行该component的1个或多个task实例)。这意味着,对于1个component存在这样的条件:#threads<=#tasks(即:线程数小于等于task数目)。默认情况下task的数目等于executor线程数目,即1个executor线程只运行1个task。

5. 并发

1)worker工作进程级别的并发设置

2)executor线程级别的并发

真正能够提高Topology性能的并发级别

3)Task任务级别的并发

builder.setBolt(BOLT, BOLT, 2).setNumberTasks(4)

指定2个executor跑4个task。

即每个executor执行2个task,这两个task并不是并发执行,而是轮流执行。

6. 消息可靠性机制

1)Bolt消息可靠性机制

每处理完接收到Tuple,发送确认信息

2)tuple锚定

二、Trident

1. 概念

1)Storm高层次的抽象

2)在Trident中保留了Spout,但是不再有Bolt组件。封装成了一系列的Operation,比如过滤、函数、分组等

3)Trident封装好了消息可靠性保障机制

4)Trident批次概念

将固定条数的Tuple划分为一个批次

给每个批次一个编号

更新统计结果状态,要严格按照批次顺序进行更新

5)事务控制

3个层次:

(1)NON-Transactional:非事务控制

允许同一个批次内的Tuple部分处理成功,失败的Tuple,可以在其他批次内进行重试,也有可能不进行重试。

(2)Transactional:严格的事务控制

要求批次内处理失败的Tuple,只能在本批次内进行重试。

如果tuple一直重试不成功,就会将整个任务程序挂起,不会进行下个批次的处理。没有容错。

(3)Opaque-Transactional:透明事务处理

批次内的tuple处理完成过后,先把成功共的更新掉,失败的tuple允许在其他批次内进行重试,只会有一次成功处理。有容错。

2. Trident的编码开发

1)构造Topology

trident中的Spout:

从数据源上获取数据,将获取到的数据封装到一个批次,并给每个批次执行一个批次号。

2)each方法

过滤操作Filter

对满足条件的Filter,

isKeep方法

3)Filter

在Trident编码中,要注意的:

Stream流在经过各种操作后,Tuple的演变,Tuple中keyvalue对的演变。

比如:Filter

仅仅只是在Stream保留或者丢弃tuple,而不会对tuple进行改变

4)Function

Stream经过函数操作后,将新产生的keyvalue对追加到原来的Tuple中,

需要注意的是,如果没有新产生keyvalue对,那么相应的tuple将会被丢弃掉。

5)指定保留哪些keyvalue、丢弃哪些keyvalue

.project

3. 并发

3)Operation的特性

是否同一分区、是否需要跨网络。

分区:指的就是一个在executor线程中运行的task。

Filter Function project

分区内的操作,只是对本分区内的Tuple进行操作

4)重分区操作 数据流分组

partitionBy

.partitionBy(new Fields("word"))

取Tuple,key名称为word的keyvalue的value值,求hashcode,然后根据哈希值 % 分区数进行取模。

相同的keyvalue对,进入同一个分区。

同一个分区内keyvalue对是否都相同?不一定

groupBy

例如 .groupBy(new Fields("word"))

实际进行了两步操作:

(1)partitionBy

(2)在将同一个分区内相同的keyvalue,分配到到一个组

先说一下场景,日志文件中有大约三千万行数据,大小为1.2G,格式为IP,TIME,现在要针对IP字段进行数量统计重复的次数,以便制定规则来控制用户的恶意注册。

shell版【15分钟统计完成】

date
cat regIp.txt | awk -F‘\t‘ ‘{ print $1}‘ | sort | uniq -c | sort -rn | head -n100
date

时间: 2024-11-05 23:29:00

《OD学storm》20160827的相关文章

《OD学spark》20160924scala基础

拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

《OD学hadoop》mac下使用VMware Fusion安装centos

一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=8049<UP,LOOPBACK,RUNNING,MULTICAST> mtu 16384 options=3<RXCSUM,TXCSUM> inet6 ::1 prefixlen 128 inet 127.0.0.1 netmask 0xff000000 inet6 fe80::1%lo0 prefixlen 64 sco

《OD学微信开发》微信小程序入门示例

官网地址: https://mp.weixin.qq.com/debug/wxadoc/dev/ 一.文件结构 小程序包含一个描述整体程序的 app 和多个描述各自页面的 page. .js后缀的是脚本文件 .json后缀的文件是配置文件 .wxss后缀的是样式表文件 wxopen-002 一个小程序主体部分由三个文件组成,必须放在项目的根目录,如下: 1. app.js app.js是小程序的脚本代码.我们可以在这个文件中监听并处理小程序的生命周期函数.声明全局变量.调用框架提供的丰富的 AP

《OD学hadoop》第一周0625 LINUX作业一:Linux系统基本命令(一)

1. 1) vim /etc/udev/rules.d/70-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAM

《OD学hadoop》20160910某旅游网项目实战

一.event事件分析 叶子节点只计算一次 父节点的触发次数由子节点的数量节点 事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上. 目标:以事件流为单位,分析事件流中各个事件的触发次数 事件流特征: 1.事件流中每一个事件都会存在一个来源/父事件 计算方式: 1. 不考虑事件流的关系,直接计算各个事件的触发次数(wordcount) 2. 考虑事件流,计算事件流中的各个事件的触发次数 区分 1.uuid,不同访客的事件流不在一起处理: 不同人产生的事件

《OD学HBase》20160821

一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral

《OD学Hive》第五周20160730

一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</

《OD学hadoop》第一周0626

一. 二. 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (2)vi /etc/sysconfig/network-scripts/ifcfg-eth0 HWADDR改为eth1的地址 HWADDR=00:0c:29:79:e6:ec 八.安装jdk modules 装好的软件 software 安装软件 (1)解压jdk tar -zxf file -C /opt/modules (