2，StructuredStreaming的事件时间和窗口操作

推荐阅读：1，StructuredStreaming简介

使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的，很像分组聚合。在一个分组聚合操作中，聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下，对于行的事件时间的每个窗口，维护聚合值。

如前面的例子，我们运行wordcount操作，希望以10min窗口计算，每五分钟滑动一次窗口。也即，12:00 - 12:10, 12:05 - 12:15, 12:10 - 12:20 这些十分钟窗口中进行单词统计。12:00 - 12:10意思是在12:00之后到达12:10之前到达的数据，比如一个单词在12:07收到。这个单词会影响12:00 - 12:10, 12:05 - 12:15两个窗口。

结果表将如下所示。

import org.apache.spark.sql.streaming.Trigger
import
java.sql.Timestamp
import
org.apache.spark.sql.functions._
import
spark.implicits._

val
lines=spark.readStream.format("socket").option("host", "127.0.0.1").option("port", 9999).option("includeTimestamp", true).load()

val
words=lines.as[(String, Timestamp)].flatMap(line=>line._1.split(" ").map(word=>
(word,
line._2))).toDF("word", "timestamp")
val
windowedCounts=words.withWatermark("timestamp", "30
seconds").groupBy(window($"timestamp", "30
seconds", "15
seconds"), $"word").count()
val
query=windowedCounts.writeStream.outputMode("Append").format("console").trigger(Trigger.ProcessingTime(5000)).option("truncate", "false").start()
query.awaitTermination()

推荐阅读：

Spark Structured Streaming高级特性

Spark Streaming 中管理 Kafka Offsets 的几种方式

原文地址：https://www.cnblogs.com/wangfengxia/p/9626874.html

时间： 2024-10-17 09:43:57

2，StructuredStreaming的事件时间和窗口操作的相关文章

Structured-Streaming之窗口操作

Structured Streaming 之窗口事件时间聚合操作 Spark Streaming 中 Exactly Once 指的是: 每条数据从输入源传递到 Spark 应用程序 Exactly Once 每条数据只会分到 Exactly Once batch 处理输出端文件系统保证幂等关系 Structured Streaming 返回的是 DataFrame/DataSet,我们可以对其应用各种操作 - 从无类型,类似 SQL 的操作(例如 select,where,groupBy)到

分析js操作动态获取屏高并触发按钮点击事件回到页面窗口的顶部

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>回到顶部</title> <style> .d1{ width:100%; height:5000px; } #btn{ width:100px; height:40px; position:fixed; right:0; bottom:0; dis

【2017-04-01】JS字符串的操作、时间日期的操作、函数、事件、动画基础

一.字符串的操作 1.转大写: s.toLowerCase(); 2.转大写: s.toUpperCase(); 3.字符串的截取: s.substr(3,4); -从索引3开始截取,截取4位.索引从0开始. 4.将字符串按指定的字符拆开: s.split(","); 引号内放指定的字符.返回的是一个数组. 5.字符串长度: s.length; 6.字符串中一个字符的索引: s.indexOf("world"); worl

window.open()方法用于子窗口数据回调至父窗口，即子窗口操作父窗口

window.open()方法用于子窗口数据回调至父窗口,即子窗口操作父窗口项目中经常遇到一个业务逻辑:在A窗口中打开B窗口,在B窗口中操作完以后关闭B窗口,同时自动刷新A窗口(或局部更新A窗口)(或将数据传回A窗口) 以下是从实际项目中截取出来和window.open()方法相关的代码,业务逻辑如下: 1. 点击父窗口的div标签(id="addMatchSchedule"),出发点击事件,打开子窗口: 2. 点击子窗口的button按钮,触发点击时间,即调用addSchduleI

事件时间(event time)与水印(watermark)

事件时间和水印诞生的背景在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有2秒的延时,也就是在实际时间的第1秒产生的数据有可能在第3秒中产生的数据之后到来. 假设在一个5秒的滚动窗口中,有一个EventTime是 9秒的数据,在第11秒时候到来了. 图示: 那么对于一个Count聚合的Tumble(5s)的window,上面的情况如何处理才能window3=3,window2=3 呢? 时间类型 Fl

「Flink」事件时间与水印

我们先来以滚动时间窗口为例,来看一下窗口的几个时间参数与Flink流处理系统时间特性的关系. 获取窗口开始时间Flink源代码获取窗口的开始时间为以下代码: org.apache.flink.streaming.api.windowing.windows.TimeWindow /** * Method to get the window start for a timestamp. * * @param timestamp epoch millisecond to get the window

WPF: WpfWindowToolkit 一个窗口操作库的介绍

在 XAML 应用的开发过程中,使用MVVM 框架能够极大地提高软件的可测试性.可维护性.MVVM的核心思想是关注点分离,使得业务逻辑从 View 中分离出来到 ViewModel 以及 Model 中,从逻辑上来讲,这也是业务逻辑应该处的位置. 具体来说,借助于数据绑定 (Data Binding) 以及命令 (Command) 等这些XAML 平台自身所提供的机制,使得 MVVM 在 XAML 平台上很容易实现.但是,如果你对 XAML 应用开发以及 MVVM 的使用有一定的经验,你会发现,

spark窗口操作

流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动. 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度. code: package com.home.spark.streaming import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.serializa

js对时间所有的操作类和代码

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 8

猜你喜欢

SQL SERVER 属性OWNER不可用于数据库xxx。该对象可能没有此属性，也可能是访问权限不足而无法检索。

今天遇到一个案例:右键单击数据库的属性时出现下面错误提示: 属性Owner不可用于数据库xxx,该对象可能没有此属性,也可能是访问权限不足而无法检索. 使用脚本查看该数据库的Owner时发现Owner ...

论运维工程师，系统工程师，系统架构师的区别

系统架构师主要负责系统前期的拓扑图(蓝图)的规划,搭建. 系统工程师主要负责建设系统架构师的蓝图建设运维工程师主要负责系统后期的维护.

C#修改文件或文件夹的权限，为指定用户、用户组添加完全控制权限

题目链接:11645 - Bits 题意:给定一个数字n,要求0-n的二进制形式下,连续11的个数. 思路:和 UVA 11038 这题类似,枚举中间,然后处理两边的情况. 不过本题最大的答案会超过l ...

Spring框架——AOP（面向切面编程）详解

1 AOP概述 ●AOP(Aspect-Oriented Programming,面向切面编程):是一种新的方法论,是对传统 OOP(Object-Oriented Programming,面向对象 ...

js正则表达式学习和总结

最近在做一个小项目时用到了正则匹配,感觉正则挺好用的,所以打算抽时间来小小总结一下. 正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符" ...

hdu---(2604)Queuing(矩阵快速幂)

Queuing Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Su ...

关于HttpClient模拟浏览器请求的參数乱码问题解决方式

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44407297 http://www.llwjy.com/blogdetail/9 ...

常见js函数收集: 转自:http://www.qdfuns.com/notes/36030/2eb2d45cccd4e62020b0a6f0586390af.html //运动框架 function ...

C puzzles详解【34-37题】

第三十四题 The following is a piece of C code, whose intention was to print a minus sign 20 times. But yo ...

Codeforces#86D Powerful array（分块暴力）

Description An array of positive integers a1,?a2,?...,?an is given. Let us consider its arbitrary su ...

【转】htonl(),htons(),ntohl(),ntons()--大小端模式转换函数

转自 http://www.cnblogs.com/kungfupanda/archive/2013/04/24/3040785.html 不同机器内部对变量的字节存储顺序不同,有的采用大端模式(bi ...

SCP 和 rsync限速以及用法

rsync限速以及用法 2014-10-23 16:43:10 标签:限速 rsync 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http ...

SQL正则表达式

转:http://blog.csdn.net/weiwenhp/article/details/6943834#t1 目录: 正则表达式中的元字符 regexp_like regexp_instr r ...

软考-网络与多媒体

今天来总结网络与多媒体的知识. 首先给大家展示一下总的图. 1.关于网络的基础知识,这部分并不是重点,近几年也没怎么考过,大家了解即可. 2.关于internet及其应用,ip地址的划分及子网掩码是一 ...

Java基础学习笔记三 Java基础语法

Scanner类 Scanner类属于引用数据类型,先了解下引用数据类型. 引用数据类型的使用与定义基本数据类型变量不同,引用数据类型的变量定义及赋值有一个相对固定的步骤或格式. 数据类型变量名 ...

矫涤栏不忱资资倩炭鸥娜逗杖禾呛

http://i2.feixin.10086.cn/pages/106537/1352505020 http://i2.feixin.10086.cn/pages/107117/1352505018 ...

mac下pip install lxml报错

解决方法: brew install libxml2 xcode-select --install sudo pip install lxml -i http://pypi.v2ex.com/simp ...

linux配置服务器笔记

设置防火墙开放80端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT 虽然看不懂是什么,但是这个是用于开放80端口的 ...

mysql：设置字符集utf8mb4 支持emoji字符

为什么要把数据库的字符集设置成utf8mb4呢?以前一直用的都是utf8啊? 答案在这里:utf8适用于不使用移动设备的互联网交互,utf8mb4适用于当前的移动设备互联网开发,因为移动设备中常常会有 ...

java转义符和正则表达式转义符

举例来说,连续相同的3位数字的正则表达式的标准语法是: ([\d])\1{2} 但是如果在java代码中这么写,就会出现语法错误,如下: String regEx = "([\d])\1{2 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.