Vertica性能分析

Vertica的特点简单的说可以总结为:列存储、MPP架构、技术比较新。列存储本身带来了数据高度压缩的便利,MPP架构使得可以用相对廉价的PC级服务器横向扩展到较大规模(PB级),05年才问世使得它在引擎层面能用上近年来列式数据库方面较新的技术,如不可见连接(Invisible Join)等。

和Oracle那种一个库包治百病的方案不同,Vertica从设计之初就是面向分析型应用的。因此,它适合相对中低并发度,相对重载的分析查询场景。对于在Vertica上跑的每个查询SQL,它总是试图分配足够的系统资源,在尽量短的时间内完成,而不是追求同一时间能有较多的并发。一般而言,每节点的CPU core数就是合适的最大并发数设置。如果最大并发设置更高,根据系统的硬件和参数配置,很多查询分配的资源可能不足,有的查询甚至进入队列等待,从而导致每个SQL的平均查询时间上升。就我们测试的经验,在系统负载达到一定程度后,增加并发度,系统的查询吞吐量(单位时间内能跑完的SQL个数)基本持平甚至会下降。这个特点尤其要注意。

Vertica的SQL语法和SQL92标准兼容,在Oracle上的SQL除了一些oracle特有函数之外,很少需要修改就可以直接在Vertica上运行。具体谈到到一个SQL的性能,都离不开执行计划的分析。

有两种方式查看执行计划:

1、MC(management console)图形界面

2、查询系统视图:Vertica提供了一系列数据字典和视图,对于SQL性能分析最重要的有两个。QUERY_PLAN_PROFILES提供了SQL运行时实际执行计划的信息,execution_engine_profiles则进一步提供了SQL执行时每一步每个节点具体的资源消耗信息,以便精确判断瓶颈所在。有这两个视图的数据,基本上可以完成所有的SQL级性能分析。

如何获取特定SQL的执行计划:

在Oracle中,一般根据SQL_ID和Plan hash value可以唯一确定一个SQL的执行计划。在Vertica中,类似的可以通过transaction_id和statement_id两个参数唯一确定一个执行计划。手工测试时通常statement_id默认是1,所以上述脚本在使用时,注意抓到要分析SQL的transaction_id即可。

因为vertica会针对每一列选择不同的压缩算法进行压缩,在SQL执行时不同数据类型的执行效率也有很大差异。所以数据类型的选择对性能影响会相对Oracle更加明显。

就Vertica我们的实践而言,数据类型的选择可以简单总结为下面几点:

1、  能用整型就不用浮点型;

2、  长度尽量短;

3、  能固定长度就不要变长(结合2);

根据测试验证,我们某个案例中将事实表KEY/ID类型字段从浮点型改为整数,将大量金额字段的数据进度从(38,10)改为(24,4),最后查询性能从6秒提升到4秒,提升了50%

Vertica有一个特别的概念projection,具体的定义和特点介绍此处不再赘述,有Oracle经验的同学可以简单的把它理解为类似物化视图的功能(当然本质有很大不同)。

时间: 2024-09-30 19:58:47

Vertica性能分析的相关文章

mysql索引结构原理、性能分析与优化

原文  http://wulijun.github.com/2012/08/21/mysql-index-implementation-and-optimization.html 第一部分:基础知识 索引 官方介绍索引是帮助MySQL高效获取数据的数据结构.笔者理解索引相当于一本书的目录,通过目录就知道要的资料在哪里, 不用一页一页查阅找出需要的资料. 唯一索引(unique index) 强调唯一,就是索引值必须唯一. 创建索引: create unique index 索引名 on 表名(列

MySQL监控、性能分析——工具篇

MySQL越来越被更多企业接受,随着企业发展,MySQL存储数据日益膨胀,MySQL的性能分析.监控预警.容量扩展议题越来越多.“工欲善其 事,必先利其器”,那么我们如何在进行MySQL性能分析.监控预警.容量扩展问题上得到更好的解决方案,就要利用各种工具来对MySQL各种指标进行分 析.本文是读书笔记,下面提及的工具,读者可能都用过,或打算准备是使用.MySQL服务器的发布包没有包含那些能完成许多常见任务的工具,例如监控服务器的工具.比较服务器间数据的工具.我们把这些工具分成以下几类:界面.监

系统监测和性能分析工具

作为一名linux运维工程师来说,对linux系统的日常管理,检测和系统性能的分析是必不可少的.也有一些针对系统监测和性能分析的工具.咱们现在就来了解一下. tcpdump命令: 网络抓包工具,过滤数据包或者定制输出格式: 常用选项: -n :  用IP地址表示主机,用数字表示端口号. -i  : 监听网卡接口, -i  any :   抓取所有网卡接口的数据包. -v  :  输出详细信息. -t :  不打印时间戳 -e :  显示以太网帧头部信息. -x  :  以十六进制数显示数据包的内

向mysql中批量插入数据的性能分析

MYSQL批量插入数据库实现语句性能分析 假定我们的表结构如下 代码如下   CREATE TABLE example (example_id INT NOT NULL,name VARCHAR( 50 ) NOT NULL,value VARCHAR( 50 ) NOT NULL,other_value VARCHAR( 50 ) NOT NULL) 通常情况下单条插入的sql语句我们会这么写: 代码如下   INSERT INTO example(example_id, name, valu

redis常用性能分析命令

一.连接 src/redis-cli -h 10.20.137.141 -p 6379 >auth 123456789 src/redis-cli -h 10.20.137.141 -p 6379 -a 123456789 二.常用性能分析命令 src/redis-cli -h 10.20.137.141 -p 6379 -a 123456789 monitor src/redis-cli -h 10.20.137.141 -p 6379 -a 123456789 info clients|gr

SQL Server-聚焦NOT IN VS NOT EXISTS VS LEFT JOIN...IS NULL性能分析(十八)

前言 本节我们来综合比较NOT IN VS NOT EXISTS VS LEFT JOIN...IS NULL的性能,简短的内容,深入的理解,Always to review the basics. NOT IN.NOT EXISTS.LEFT JOIN...IS NULL性能分析 我们首先创建测试表 USE TSQL2012 GO CREATE SCHEMA [compare] CREATE TABLE [compare].t_left ( id INT NOT NULL PRIMARY KE

Oracle Update 语句语法与性能分析 - 多表关联

Oracle Update 语句语法与性能分析 - 多表关联 为了方便起见,建立了以下简单模型,和构造了部分测试数据: 在某个业务受理子系统BSS中, SQL 代码 --客户资料表 create table customers ( customer_id number(8) not null, -- 客户标示 city_name varchar2(10) not null, -- 所在城市 customer_type char(2) not null, -- 客户类型 ... ) create

三种Linux性能分析工具的比较

无论是在CPU设计.服务器研发还是存储系统开发的过程中,性能总是一个绕不过去的硬指标.很多时候,我们发现系统功能完备,但就是性能不尽如意,这时候就需要找到性能瓶颈.进行优化.首先我们需要结合硬件特点.操作系统和应用程序的特点深入了解系统内部的运行机制.数据流图和关键路径,最好找出核心模块.建立起抽象模型:接着需要利用各种性能分析工具,探测相关模块的热点路径.耗时统计和占比.在这方面,Linux操作系统自带了多种灵活又具有专对性的工具,此外一些厂家也开源了不少优秀的性能分析工具.下面就结合笔者最近

代码性能分析

代码性能优化 优化是对代码进行等价变换,使得变换后的代码运行结果与变换前的代码运行结果相同,但执行速度加快或存储开销减少. 代码性能优化是一门复杂的学问. 根据 80/20 原则,实现程序的重构.优化.扩展以及文档相关的事情通常需要消耗80% 的工作量. 在满足正确性.可靠性.健壮性.可读性等质量因素的前提下,设法提高程序的效率 以提高程序的全局效率为主,提高局部效率为辅 在优化程序效率时,应先找出限制效率的“瓶颈” 先优化数据结构和算法,再优化执行代码 时间效率和空间效率可能是对立的,应当分析