Impala在处理结果集较大的查询的优势

近期运营出报表，查询的数据量为15年的数据量，涉及的表及表中记录数如下图所示：

刚开始的时候在MySQL中进行查询汇总，选择第一个数据量最小的表，发现MySQL 出现内存溢出，数据库使用的是腾讯云上的一台CDB，内存大小为24GB。后来将数据上传到hdfs上使用impala（数据格式为PARQUET）来查询，发现效果要好于MySQL，我们的impala是一个3节点集群，内存8GB，存储500GB SSD。查询耗时如下：

从查询的过程可以看出，impala在处理较大的数据集时有着MySQL所不具备的高性能。如果在MySQL中对5亿条记录做汇总，可能需要很高的配置了，而且运行时间不见得比impala短。

时间： 2024-11-06 02:36:00

Impala在处理结果集较大的查询的优势的相关文章

开源大数据查询分析引擎现状

引言大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce.Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架,提供了一系列

联表查询时始终以小结果集驱动大结果集

写在前面的话不要求每个人一定理解联表查询(join/left join/inner join等)时的mysql运算过程: 不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小: 但要经常使用explain查看执行计划,这是一种美德! 联表查询的基础知识下面两个查询,它们只差了一个order by,效果却迥然不同. 第一个查询: EXPLAIN extended SELECT ads.id FROM ads, city WHERE city.city_id = 8005 AN

利用SQL Profiler处理开销较大的查询

原文:利用SQL Profiler处理开销较大的查询当SQL Server的性能变差时,最可能发生的是以下两件事: 首先,某些查询产生了系统资源上很大的压力.这些查询影响整个系统的性能,因为服务器无法足够快速地服务其他SQL查询. 另外,开销较大的查询阻塞了其他请求相同数据库资源的查询,进一步降低了这些查询的性能.优化开销较大的查询不仅改进它们本身的性能,而且减少数据库阻塞和SQL Server资源压力从而提高了其他查询的性能. 识别开销较大的查询 SQL Server的目标是在最短时间内将结

大数据查询——HBase读写设计与实践

背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重.本项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求.下面列一些具体的需求指标: 1.数据量:目前 check 表的累计数据量为 5000w+ 行,11GB:op

关于大数据查询与导出

上周末,帮朋友处理了一个关于大数据的查询与导出问题,整理一下,在此记录一下用以备忘,同时也为有类似需要的朋友提供一个参考. 背景: 数据库服务使用: SqlServer2008 ; 查询的流水表总数据量约在 800W 条左右 ; 需要展示的字段需要从流水表+基础资料表中导出需要加载指定模板 ; 要求查询响应时间<=2s,导出<=10s; (当然每次仅处理符合条件的数据) . 该系统运行了大概2年时间,系统刚上线的时候,各项性能指标还ok,目前该功能点查询和导出时直接卡死. 该项目为常规

如何应付表数据过大的查询问题?(如何尽量避免大表关联)

原文:如何应付表数据过大的查询问题?(如何尽量避免大表关联) 一般来说,对于做B/S架构的朋友来说,更有机会遇到高并发的数据库访问情况,因为现在WEB的普及速度就像火箭升空,同时就会因为高访问量带来一系列性能问题,而数据库一直是用户与商人之间交流的重要平台.用户是没有耐心忍受一个查询需要用上10秒以上的,或者更少些,如果经常出现服务器死机或者是报查询超时,我想那将是失败的项目.做了几年的WEB工作,不才,一直没有遇到过大访问量或者是海量数据的情况.这里并不是说没有海量数据的项目就不是好项目,要看

使用resultMap定义查询结果集，实现关联查询

接下来介绍resultMap定义查询结果集,实现关联查询 1 首先在接口中定义操作的方法 public interface EmployeeMapperPlus { public Employee getEmpAndDept(Integer id); } 2在xml里进行配置  <resultMap type="com.atguigu.mybatis.bean.Employee" id="MyDif

limit偏移量越大，查询越慢的实验

常见分页查询,越到后面越慢,这是由于offset造成的,offset越大,查询越慢,因为所以加载的页越多,扫描也就越费时. 实验: sbtest1表,100w数据量,主键id,辅助非唯一索引k_1select id from sbtest.sbtest1 where id>="200000" order by id limit 100000,10;select id from sbtest.sbtest1 where id>="200000" order

Hadoop集群大数据平台搭建

Hadoop集群环境搭建配置前言 Hadoop的搭建分为三种形式:单机模式.伪分布模式.完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式. 硬件选择须知: 分布式环境中一个服务器就是一个节点节点越多带来的是集群性能的提升一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNo