大数据开发实战:Stream SQL实时开发

  1、流计算SQL原理和架构

    流计算SQL通常是一个类SQL的声明式语言,主要用于对流式数据(Streams)的持续性查询,目的是在常见流计算平台和框架(如Storm、Spark Streaming、Flink、Beam等)的底层API上,

  通过使用简易通用的的SQL语言构建SQL抽象层,降低实时开发的门槛。

    流计算SQL的原理其实很简单,就是在SQL和底层的流计算引擎之间架起一座桥梁---流计算SQL被用户提交,被SQL引擎层翻译为底层的API并在底层的流计算引擎上执行。比如对Storm

  来说,会自动翻译成Storm的任务拓扑并在Storm集群上运行。

    流计算SQL引擎是流计算SQL的核心,主要负责对用户SQL输入进行语法分析、语义分析、逻辑计划生成、逻辑计划执行、物理执行计划生成等操作。而真正执行计算的是底层的流计算平台。

    不同于离线任务,实时的数据是不断流入的,所以为了使用SQL来对流处理进行抽象,流计算SQL也引入了“表”的概念,不过这里的表是动态表。

    流计算SQL的架构如下:

    

    SQL层:流计算SQL给用户的接口,它提供过滤、转换、关联、聚合、窗口、select、union、split等各种功能。

    SQL引擎层:负责SQL解析/校验、逻辑计划生成优化和物理计划执行等。

    流计算引擎层:具体执行SQL引擎层生成的执行计划。

原文地址:https://www.cnblogs.com/shaosks/p/9591076.html

时间: 2024-10-06 19:57:01

大数据开发实战:Stream SQL实时开发的相关文章

Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)

Spark 2.x企业级大数据项目实战(实时统计.离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取码: 9n1x 本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo.课程涵盖了离线分析.实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop.Spark.HBase.Kafka.Redis.MySQL等相关大数据技术,并实际落地 . 本门课程全程实操,不用担

大数据(实战型)数据分析专家、首席分析师高级视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

Greenplum Hadoop分布式平台大数据解决方案实战教程

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析 [上集]百度网盘下载:链接:http://pan.baidu.com/s/1eQJFXZ0 密码:kdx9 [下集]百度网盘下载:链接:http://pan.baidu.com/s/1hq4cO2w密码:cnsq 课程内容简介: 本课程分两大部分: 第一部分全面深入地介绍了Greenplum数据库,包括架构特性.部署.管理.开发和调优等,由浅入深 ,理论结合实战,让同学全面彻底掌握这把大数据利剑. 第二部分深入阐述

大数据不就是写SQL吗?

[原创,转载请注明出处] 应届生小祖参加了个需求分析会回来后跟我说被产品怼了一句: "不就是写SQL吗,要那么久吗" 我去,欺负我小弟,这我肯定不能忍呀,于是我写了一篇文章发在了公司的wiki 贴出来给大家看看,省略了一些敏感的内容.当然内部版言辞也会温和一点,嘻嘻 在哪里写SQL? 这个问题高级点的问法是用哪种SQL引擎? SparkSQL.Hive.Phoenix.Drill.Impala.Presto.Druid.Kylin (这里的SQL引擎是广义的,大家不必钻牛角尖) 我用一

千万级大数据的Mysql数据库SQL语句优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则引擎将放弃使用

大数据量下的SQL Server数据库自身优化 (转载)

1.1:增加次数据文件 从SQL SERVER 2005开始,数据库不默认生成NDF数据文件,一般情况下有一个主数据文件(MDF)就够了,但是有些大型的数据库,由于信息很多,而且查询频繁,所以为了提高查询速度,可以把一些表或者一些表中的部分记录分开存储在不同的数据文件里 由于CPU和内存的速度远大于硬盘的读写速度,所以可以把不同的数据文件放在不同的物理硬盘里,这样执行查询的时候,就可以让多个硬盘同时进行查询,以充分利用CPU和内存的性能,提高查询速度. 在这里详细介绍一下其写入的原理,数据文件(

大数据入门级学习:SQL与NOSQL数据库

这几年的大数据热潮带动了一激活了一大批hadoop学习爱好者.有自学hadoop的,有报名培训班学习的.所有接触过hadoop的人都知道,单独搭建hadoop里每个组建都需要运行环境.修改配置文件测试等过程.对于我们这些入门级新手来说简直每个都是坑.国内的发行版hadoop那么多,似乎都没有来填这样的坑?不知道是没法解决,还是没有想到?安装运行环境这样的坑,那些做国产大数据底层开发的,如果不能解决这个问题的话,我觉得不是一个合格的大数据底层开发机构.不过比较幸运的是,三月的时候申请拿到了一个DK

Spark2.x+Python大数据机器学习实战视频教程

提取码:6o68 课程学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ 机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测.机器学习技术不断进步,应用相当广泛,例如推荐引擎.定向广告.需求预测.垃圾邮件过滤.医学诊断.自然语言处理.搜索引擎.诈骗侦测.证券分析.视觉辨识.语音识别.手写识别等. 为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练.大数据的兴起带来

大数据精英实战项目班-Hadoop-Spark-真实企业项目

2018最新最全大数据技术视频,项目视频.整套视频,非那种杂七杂八自己拼凑的,内容如下,需要的联系QQ:3164282908(加Q注明大数据) 更有海量大数据技术视频.大数据项目视频,机器学习深度学习技术视频.项目视频.Python编程视频.Oracle数据库视频.Java培训视频高级架构师视频等等等. ├----------01-大数据Java基础------------- │├java第01天 ││├java第01天-01.类型转换.avi ││├java第01天-02.归档分析与实现.av