Sequoiadb该如何选择合适的SQL引擎

Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据,对于非结构化数据只能使用原生的API进行查询,对结构化数据我们可以选择使用原生的API和开源SQL引擎,目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎,应用中该如何选择?

首先需要了解这些SQL引擎是怎么工作的,下图是Sequoiadb的接口图,所有的SQL查询都是通过SQL引擎把SQL解析成原生API的调用,PG依赖c++驱动,SparkSQL和HIVE依赖Java驱动

首先我们谈一谈PG,PG通过创建外部表的形式用来读写Sequoiadb中的数据,支持标准SQL和存储引擎,目前由于PG是单点,这就造成如果做多表关联,多个表的数据通过网络传输到PG所在的节点上进行关联计算,对IO和CPU的压力很大,SQL执行是很慢的,如果是对单表做操作性能是很快的,建议千万级别一下的数据使用PG做SQL引擎。

SparkSQL是构建在spark上面的一个SQL引擎,spark是一个分布式计算框架,sql通过sparksql的解析为执行任务在spark集群上执行,它没有单点的问题,充分利用数据所在节点上的计算资源,同时  sparkSQL的表数据在内存中存储不是采用原生态的JVM对象存储方式,而是采用内存列存储,该存储方式无论在空间占用量和读取吞吐率上都占有很大优势,更重要的是spark是多线程模型,Spark同节点上的任务以多线程的方式运行在一个JVM进程中,启动了thriftserver以后,一个sql对用spark的一个job,只需要在thriftserver所拥有的executor进程中生成线程来执行。

上面都是SparkSQL的优点,但是确定也有很多缺点,SparkSQL当一个SQL执行时间过长的话,后面的SQL都会卡住,这个资源问题后来虽然解决了,但是依然觉得不够完美,thriftserver --master 只能指定单个url,有单点的问题

目前项目中使用spark sql做数据的分析和查询,遇到很多问题,不过最终都解决了。

Hive把sql解析成mr任务,也是分布式计算,但是mr是进程级别的,没有sql都要启动JVM进程去执行,速度慢,在和sequoiadb对接过程中发现一个问题,在hive 0.13版本中会自行进行mapjoin .当数据量大的时候,笔者在做2kw数据和1kw数据做join时,报oom错误。所有需要set hive.auto.convert.join = false, 但是这带来一个问题就是速度非常的慢, 但是hive相对成熟,对于速度要求不高,节点内存比较小,同时机器上部署hadoop的用户可以使用hive

笔者最终选择了spark sql。

时间: 2024-11-08 03:32:16

Sequoiadb该如何选择合适的SQL引擎的相关文章

mysql 选择合适的存储引擎

1 MyISAM:默认的MySQL 插件式存储引擎.如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性.并发性要求不是很高,那么选择这个存储引擎是非常适合的.MyISAM 是在Web.数据仓储和其他应用环境下最常使用的存储引擎之一.2 InnoDB:用于事务处理应用程序,支持外键.如果应用对事务的完整性有比较高的要求,在并发条件下要求数据的一致性,数据操作除了插入和查询以外,还包括很多的更新.删除操作,那么InnoDB 存储引擎应该是比较合适的选择.InnoDB 存储

Mysql选择合适的存储引擎

Myisam:默认的mysql插件式存储引擎.如果应用是以读操作和插入操作为主,只有很少的更新和删除操作,并且对事务的完整性.并发性要求不是很高,那么选择这个存储引擎是非常合适的.Myisam是在web.数据仓储和其他应用环境下最常使用的存储引擎之一. ? Innodb:用于事务处理应用程序,支持外键.如果应用对事务的完整性有比较高的要求,在并条件下要求数据的一致性,数据操作除了插入和查询以外,还包括很多的更新.删除操作,那么Innodb存储引擎应该是比较合适的选择.Innodb存储引擎除了有效

Android研究之为基于 x86 的 Android* 游戏选择合适的引擎详解

摘要 游戏开发人员知道 Android 中蕴藏着巨大的机遇. 在 Google Play 商店的前 100 款应用中,约一半是游戏应用(在利润最高的前 100 款应用中,它们所占的比例超过 90%). 如要跻身该市场,开发速度非常关键. 一些刚起步的独立开发人员更愿意从零开始来开发自己的所有代码:但是为了达到更高的质量而不用花费数年的时间进行开发,其他人可能会选择已有的游戏引擎.上章研究了英特尔 Android* 开发人员指南上的对等应用详解,在选择引擎时,你可以考虑以下几个因素: 成本 - 你

为基于 x86 的 Android* 游戏选择合适的引擎

摘要 游戏开发人员知道 Android 中蕴藏着巨大的机遇. 在 Google Play 商店的前 100 款应用中,约一半是游戏应用(在利润最高的前 100 款应用中,它们所占的比例超过 90%). 如要跻身该市场,开发速度非常关键. 一些刚起步的独立开发人员更愿意从零开始来开发自己的所有代码:但是为了达到更高的质量而不用花费数年的时间进行开发,其他人可能会选择已有的游戏引擎. 在选择引擎时,你可以考虑以下几个因素: 成本 - 你计划支出多少费用? 维度 - 你的游戏是二维还是三维? 语言 -

6大主流开源SQL引擎总结,遥遥领先的是谁?

根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL.本文就带你来了解这些主流的开源SQL引擎!背景介绍 本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者

谈谈数据库中MyISAM与InnoDB区别 针对业务类型选择合适的表

MyISAM:这个是默认类型,它是基于传统的ISAM类型, ISAM是Indexed Sequential Access Method (有索引的顺序访问方法) 的缩写,它是存储记录和文件的标准方法. 与其他存储引擎比较,MyISAM具有检查和修复表格的大多数工具. MyISAM表格可以被压缩,而且它们支持全文搜索.它们不是事务安全的,而且也不支持外键.如果事物回滚将造成不完全回滚,不具有原子性.如果执行大量的SELECT,MyISAM是更好的选择. MyIASM是IASM表的新版本,有如下扩展

8.1 第八章 选择合适的数据类型

在使用MySQL 创建数据表时都会遇到一个问题,如何为字段选择合适的数据类型.例 如,创建一张员工表用来记录员工的信息,这时对员工的各种属性如何来进行定义?也许大 家会想,这个问题很简单,每个字段可以使用很多种数据类型来定义,比如int.float.double. decimal 等.其实正因为可选择的数据类型太多,才需要依据一些原则来"挑选"最适合的 数据类型.本章将详细介绍字符.数值.日期数据类型的一些选择原则. 8.1 CHAR 与VARCHAR CHAR 和VARCHAR 类型

六大主流开源SQL引擎

本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为"Watson SQL". 背景介绍 使用SQL 引擎一词是有点随意的.例如Hive 不是一个引擎,它的框架使用MapReduce.TeZ 或者Spark 引擎去执行查询,而且它并不运行SQ

HBase场景 | 都是HBase上的SQL引擎,Kylin和Phoenix有什么不同?

大数据时代,数据的价值越来越被重视,企业从海量大数据中挖掘所需要的信息,用来驱动业务决策以获得更大的商业价值.与此同时,出现了越来越多的大数据技术帮助企业进行大数据分析,例如 Apache Hadoop,Hive,Spark,Presto,Drill,以及今天我们即将介绍的 Apache Kylin 和 Apache Phoenix 项目等,都是使用 SQL 语言就可以分析大数据,极大地降低了大数据的使用门槛.这些大数据技术提供 SQL 查询接口,不只是因为 SQL 学习成本低,同时也和 SQL