Impala在处理结果集较大的查询的优势

近期运营出报表,查询的数据量为15年的数据量,涉及的表及表中记录数如下图所示:

刚开始的时候在MySQL中进行查询汇总,选择第一个数据量最小的表,发现MySQL 出现内存溢出,数据库使用的是腾讯云上的一台CDB,内存大小为24GB。后来将数据上传到hdfs上使用impala(数据格式为PARQUET)来查询,发现效果要好于MySQL,我们的impala是一个3节点集群,内存8GB,存储500GB  SSD。查询耗时如下:

从查询的过程可以看出,impala在处理较大的数据集时有着MySQL所不具备的高性能。如果在MySQL中对5亿条记录做汇总,可能需要很高的配置了,而且运行时间不见得比impala短。

时间: 2024-11-06 02:36:00

Impala在处理结果集较大的查询的优势的相关文章

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce.Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架,提供了一系列

联表查询时始终以小结果集驱动大结果集

写在前面的话 不要求每个人一定理解 联表查询(join/left join/inner join等)时的mysql运算过程: 不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小: 但要经常使用explain查看执行计划,这是一种美德! 联表查询的基础知识 下面两个查询,它们只差了一个order by,效果却迥然不同. 第一个查询: EXPLAIN extended SELECT ads.id FROM ads, city WHERE city.city_id = 8005 AN

利用SQL Profiler处理开销较大的查询

原文:利用SQL Profiler处理开销较大的查询 当SQL Server的性能变差时,最可能发生的是以下两件事: 首先,某些查询产生了系统资源上很大的压力.这些查询影响整个系统的性能,因为服务器无法足够快速地服务其他SQL查询. 另外,开销较大的查询阻塞了其他请求相同数据库资源的查询,进一步降低了这些查询的性能.优化开销较大的查询不仅改进它们本身的性能,而且减少数据库阻塞和SQL Server资源压力从而提高了其他查询的性能. 识别开销较大的查询 SQL Server的目标是在最短时间内将结

大数据查询——HBase读写设计与实践

背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重.本项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求.下面列一些具体的需求指标: 1.数据量:目前 check 表的累计数据量为 5000w+ 行,11GB:op

关于大数据查询与导出

上周末,帮朋友处理了一个关于大数据的查询与导出问题,整理一下,在此记录一下用以备忘,同时也为有类似需要的朋友提供一个参考. 背景: 数据库服务使用: SqlServer2008 ; 查询的流水表总数据量约在 800W 条左右 ; 需要展示的字段需要从流水表+基础资料表中 导出需要 加载指定模板 ; 要求查询响应时间<=2s,导出<=10s; (当然每次仅处理符合条件的数据) . 该系统运行了大概2年时间,系统刚上线的时候,各项性能指标还ok,目前该功能点查询和导出时直接卡死. 该项目为 常规

如何应付表数据过大的查询问题?(如何尽量避免大表关联)

原文:如何应付表数据过大的查询问题?(如何尽量避免大表关联) 一般来说,对于做B/S架构的朋友来说,更有机会遇到高并发的数据库访问情况,因为现在WEB的普及速度就像火箭升空,同时就会因为高访问量带来一系列性能问题,而数据库一直是用户与商人之间交流的重要平台.用户是没有耐心忍受一个查询需要用上10秒以上的,或者更少些,如果经常出现服务器死机或者是报查询超时,我想那将是失败的项目.做了几年的WEB工作,不才,一直没有遇到过大访问量或者是海量数据的情况.这里并不是说没有海量数据的项目就不是好项目,要看

使用resultMap定义查询结果集,实现关联查询

接下来介绍resultMap定义查询结果集,实现关联查询 1 首先在接口中定义操作的方法 public interface EmployeeMapperPlus { public Employee getEmpAndDept(Integer id); } 2在xml里进行配置 <!--第一种进行配置 联合查询:级联属性封装结果集 --> <resultMap type="com.atguigu.mybatis.bean.Employee" id="MyDif

limit偏移量越大,查询越慢的实验

常见分页查询,越到后面越慢,这是由于offset造成的,offset越大,查询越慢,因为所以加载的页越多,扫描也就越费时. 实验: sbtest1表,100w数据量,主键id,辅助非唯一索引k_1select id from sbtest.sbtest1 where id>="200000" order by id limit 100000,10;select id from sbtest.sbtest1 where id>="200000" order

Hadoop集群大数据平台搭建

Hadoop集群环境搭建配置 前言 Hadoop的搭建分为三种形式:单机模式.伪分布模式.完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式. 硬件选择 须知: 分布式环境中一个服务器就是一个节点 节点越多带来的是集群性能的提升 一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNo