"HybridDB · 性能优化 · Count Distinct的几种实现方式” 读后感

原文地址:HybridDB · 性能优化 · Count Distinct的几种实现方式

HybridDB是阿里基于GreenPlum开发的一款MPP分析性数据库,而GreenPlum本身基于PostgreSQL。

如此,HybridDB的优化思路和手段难免会受到PostgreSQL影响和限制。

文中的语句最终优化得到了几个不同计划,其优化的语句简化后形如

select count(distinct c1) from t group by c2;

这条语句在HybridDB下实现:

  1. 每个服务器自行分组、计算count(distinct);
  2. 将上一步结果按照分组列重新分发;
  3. 每个服务器根据收到的数据进行二次分组计算;
  4. 收集汇总到一个服务器得到最终结果。

文中优化点集中在分组的实现方式上,

a), 排序+分组;

b), hash分组;

c), orca优化方式,同a#,改进在于第一次排序项不同。

原文中a#, b#, c#的计划概括

a),

Scan (Columnar Scan + Append) -> Sort(category) -> Group by(category) -> Redistribute -> Sort(category) -> Group by(category) -> Sort -> Gather

b),

Scan (Columnar Scan + Append) -> Group by(Hash(category,actionId)) -> Redistribute(category) -> Group by(Hash(category, acitonId)) -> Group by(Hash(category)) -> Sort -> Gather

c),
Scan (Dynamic Scan) -> Sort (category, actionId) -> Group by (category) -> Redistribute -> Sort (category) -> Group by(category) -> Sort -> Gather

个人认为这篇文章提到的优化和MPP关系不大,单机下也许也能得到类似的不同计划。

也许是受限于数据分布特性、数据量等因素,MPP下数据分发、汇总的MOTION优化并没有体现在这里。

时间: 2024-10-11 00:35:43

"HybridDB · 性能优化 · Count Distinct的几种实现方式” 读后感的相关文章

【Android笔记】listview加载性能优化及有多种listitem布局处理方式

在android开发中Listview是一个很重要的组件,它以列表的形式根据数据的长自适应展示具体内容. 用户可以自由的定义listview每一列的布局,但当listview有大量的数据需要加载的时候,会占据大量内存,影响性能,这时候就需要按需填充并重新使用view来减少对象的创建. ListView加载数据都是在 1 public View getView(int position, View convertView, ViewGroup parent) { 2 3 ...... 4 5 }

Oracle 学习之性能优化(七)join的实现方式

本文讨论一下join技术背后的机制.我们知道常用的表连接有如下几种 笛卡尔连接 内连接 左外连接 右外连接 全连接 这些sql的写法,想必大家都很清楚了,那么这些连接的数据访问是如何实现的呢? nested loop 我们看如下查询 SQL> alter session set optimizer_mode=rule; Session altered. SQL> select ename,dname from emp,dept where emp.deptno=dept.deptno; 14 

Web前端性能优化进阶——完结篇

前言 在之前的文章 如何优化网站性能,提高页面加载速度 中,我们简单介绍了网站性能优化的重要性以及几种网站性能优化的方法(没有看过的可以狂戳 链接 移步过去看一下),那么今天我们深入讨论如何进一步优化网站性能. 一.拆分初始化负载 拆分初始化负载——听名字觉得高大上,其实不然,土一点将讲就是将页面加载时需要的一堆JavaScript文件,分成两部分:渲染页面所必需的(页面出来,没他不行)和剩下的.页面初始化时,只加载必须的,其余的等会加载. 其实在现实生产环境中,对于大部分网站:页面加载完毕(w

关于大型门户网站系统的性能优化

鉴于B/S架构在维护成本和客户端配置等方面所具有的绝对优势,越来越多的系统采用了B/S架构,包括ERP.CRM等管理系统也开始向Internet靠拢.而B/S架构的系统却往往很难预计到系统并发访问数有多少,系统往往在高并发访问量的时候出现性能瓶颈,具体表现为页面提示超时信息或者提示数据库抛出的异常信息.为此,针对于B/S架构的面向Internet的系统,尤其是像淘宝.当当网等日访问量超过20余万的大型门户网站进行性能优化是势在必行! 针对大型门户网站系统的性能优化方案有以下几种: (1)页面静态

性能优化指南:性能优化的一般性原则与方法

作为一个程序员,性能优化是常有的事情,不管是桌面应用还是web应用,不管是前端还是后端,不管是单点应用还是分布式系统.本文从以下几个方面来思考这个问题:性能优化的一般性原则,性能优化的层次,性能优化的通用方法.本文不限于任何语言.框架,不过可能会用Python语言来举例. 不过囿于个人经验,可能更多的是从Linux服务端的角度来思考这些问题. 本文地址:http://www.cnblogs.com/xybaby/p/9055734.html 一般性原则 依据数据而不是凭空猜测 这是性能优化的第一

数据库的性能优化的一些思考

1,服务器目前的架构 cpu 内存 io 网络 一主 -> 多从(14) 主服务器宕机 切换从服务器慢 监控指标 :qps和tps (慢sql占用cpu时间太长,每个sql只能是一个cpu执行,qps超高造成阻塞) 并发量和cpu使用率 (连接数被占满,cpu资源耗尽出现宕机) 磁盘IO 网卡IO 大表(千万行数据,文件10g数据,查询条件复杂) 查询慢容易产生慢sql,产生大量的磁盘IO,更改列会很慢,建立索引时间长,主从延迟大 ddl操作会长时间锁表,造成主从延迟,正常数据会被阻塞,大量的链

Mysql性能优化:为什么你的count(*)这么慢?

原文:Mysql性能优化:为什么你的count(*)这么慢? 导读 在开发中一定会用到统计一张表的行数,比如一个交易系统,老板会让你每天生成一个报表,这些统计信息少不了 sql 中的count函数. 但是随着记录越来越多,查询的速度会越来越慢,为什么会这样呢?Mysql内部到底是怎么处理的? 今天这篇文章将从Mysql内部对于count函数是怎样处理的? 本文首发于作者微信公众号[码猿技术专栏]Mysql性能优化:为什么你的count(*)这么慢?,原创不易,喜欢的请支持一下,谢谢!!! cou

滚动视图性能优化的几种方式

目的: - 我们每次发布IOS时都会有一些新特性页面,当然还有广告条都会用到滚动视图.那么如何性能优化呢?目前就我所知有两种方案,一种就是常用的2-3张图片重复利用,另一种就是今天主要讲的利用UICollectionView来做. - 今天就做一个新特性页面为例 步骤: 方法一:利用UICollectionView 1.UICollectionView继承UIScrollView,我们要用滚动视图,肯定会用到ScrollView,而如何我们把collectionView中的一个Item当作滚动视

Hive语法层面优化之四count(distinct)引起的数据倾斜

当该字段存在大量值为null或空的记录,容易发生数据倾斜: 解决思路: count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1: 如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行union. 案例: select count(distinct end_user_id) as user_num from trackinfo; 调整为: select cast(count(