Oracle并行操作——从串行到并行(转)

并行(Parallel)操作特性,是Oracle为更充分利用服务器硬件处理资源,提高特定大数据量操作效率,应对海量生产数据而推出的一种技术特性。通常,我们进行的SQL处理都是单进程操作,对应单个CPU操作单元。所谓的并行操作,就是在软硬件条件允许的情况下,Oracle调用多个处理单元分别进行处理,最后汇合结果的过程。对一些SQL进行有计划的并行操作,可以显著提高系统操作速度。

1、海量数据的困局

互联网络时代给世界带来很多变化,其中一项就是信息的爆炸,数据呈几何级数增长。数据库随之进入海量、洋级时代,TB级数据库已经越来越频繁的出现在各类型应用场景中。开发人员和DBA就不得不面对一个困局,如果处理海量数据。

在传统时代,我们最常借助的一个优化手段是索引。通过检索较少的数据块,获取到符合条件的数据行rowid。“索引进入执行计划,替代全表扫描”成为我们优化的重要导向。但是,索引路径不是用户最终体验。随着数据量的增大(单表上G),即使我们的执行计划很完美,检索索引+数据块定位的时间损耗可能依然不能满足客户需求。其次,一些特定系统类型(如OLAP系统),可能就是要进行全表扫描操作,对所有数据进行检索处理。这些场合下,传统的索引中心优化就无用武之地了。

在计算机科学中,“分治”这种古老的思想一直扮演着重要地位,无论是在软件的算法还是在硬件的体系。近年来,硬件技术,特别是多核CPU、多CPU计算机的逐渐普及,使得多核计算机、服务器开始出现在企业应用领域。多核CPU和多CPU本质上就是多处理单元并行的基础。将一个任务划分为若干个子任务,交由不同的处理单元进行同时处理,之后将结果集合汇总,是通用的单任务多处理进程模型。应该说,并行技术是建立在软硬件技术基础之上的,其中硬件技术是一个决定要素。

2、Oracle的并行处理

Oracle并行处理(Parallel Processing)特性主要是针对SQL语句处理的并行。目前Oracle提供支持并行的操作包括如下类型:

ü        并行查询操作;

ü        并行DDL。对数据对象的DDL操作;

ü        并行DML。进行并行的数据更新修改;

在具体的应用场景上,有如下场景:

ü        数据表、索引范围扫描的查询;

ü        批量增加、修改和删除操作;

ü        数据表、索引对象的创建;

ü        “DBMS_STATS”收集统计量;

ü        备份恢复管理器Recovery Manager的使用;

在Oracle中,一共包括三种进程Process类型,分别为客户进程Client Process、服务进程Server Process和后台进程Background Process。其中,进行数据块读取、修改写入等实际操作的都是服务进程Server Process。Server Process是客户进程在数据库实例上的代理进程,保持着一对一的关系。由此,一般的SQL语句都是单进程串行操作的。

Oracle并行操作涉及的过程同一般并行操作的模型基本相似,包括处理单元和协调单元两类进程组成。首先,处理的单一任务划分为若干子任务。在协调进程(Coordinator)的作用下,并行操作被划分为若干子任务,分别传递给多个并行服务进程进行处理。之后,各个进程将处理结果进行汇总,交付给协调进程进行组合,作为统一的结果返回。

并处处理在Oracle中是一个配置过程,包括很多参数配置和概念要素。其中最重要的两个概念就是并行度和并行伺候进程池。下面分别来介绍两个概念和相关的配置项目。

3、并行度和并行伺候进程池

并行度DOP(Degree Of Parallel)定义了进行并行操作时并行流的个数。DOP可以理解成进行并行处理时候,划分的并行处理单元个数。但是,在实际的情况看,进行并行处理的进程个数往往是DOP的两倍,也就是一个并行流实际上是两个处理进程在进行处理工作。这样的配置通常是为了实现进程之间的协调合作,缓解各个处理环节上的速度不匹配现象。

并行度DOP是Oracle并行操作中一个重要的配置参数。目前的Oracle版本中,支持手工配置和自动配置DOP两种方式。如果是手工指定并行度,就需要在SQL语句上,通过hint来制定并行度的个数。自动配置DOP的含义是Oracle根据当前实际负载和并行进程池的状况,经过计算自动的出的适应性并行度。下面是一些Oracle中与并行度相关的参数。

SQL> show parameter parallel

NAME                                 TYPE        VALUE

------------------------------------ ----------- ------------------------------

fast_start_parallel_rollback         string      LOW

parallel_adaptive_multi_user         boolean     TRUE

parallel_automatic_tuning            boolean     FALSE

parallel_degree_limit                string      CPU

parallel_degree_policy               string      MANUAL

parallel_execution_message_size      integer     16384

parallel_force_local                 boolean     FALSE

parallel_instance_group              string

parallel_io_cap_enabled              boolean     FALSE

parallel_max_servers                 integer     10

parallel_min_percent                 integer     0

parallel_min_servers                 integer     0

parallel_min_time_threshold          string      AUTO

parallel_server                      boolean     FALSE

parallel_server_instances            integer     1

parallel_servers_target              integer     4

parallel_threads_per_cpu             integer     2

recovery_parallelism                 integer     0

上面参数的含义,会在本系列中逐渐使用和介绍。

DOP是一个配置项目,实际的并行工作还需要真是存在的进程完成。从上文的背景介绍中,一个session只对应一个Server Process,进行操作处理实际都需要Server Process来完成。并行处理中,Oracle引入了并行伺候进程池的概念。并行伺候进程池是一个进程的集合,针对需要进行并行处理的SQL操作,会从处理池中分配出适当数量的服务进程来进行处理。

一些与并行服务进程相关的参数,如下:

SQL> show parameter parallel_m

NAME                                 TYPE        VALUE

------------------------------------ ----------- ------------------------------

parallel_max_servers                 integer     10

parallel_min_percent                 integer     0

parallel_min_servers                 integer     0

4、一个并行Query的示例

下面针对一个大数据量表,演示一下并行SQL的执行计划。首先还是环境准备:

SQL> select * from v$version where rownum<2;

BANNER

--------------------------------------------------------------------------------

Oracle Database 11g Enterprise Edition Release 11.2.0.1.0 - Production

SQL> select count(*) from t;

COUNT(*)

----------

1110542

使用并行操作,最常用的方式是通过Hint进行指定(当然也可以通过对象Parallel属性指定)。下面是没有使用并行和使用并行两个执行计划的差异演示。

SQL> set linesize 10000;

SQL> set pagesize 10000;

SQL> explain plan for select * from t;

已解释。

已用时间:  00: 00: 00.03

SQL> select * from table(dbms_xplan.display(format => ‘advanced‘));

PLAN_TABLE_OUTPUT

--------------------------------------------------------------------------------

Plan hash value: 1601196873

--------------------------------------------------------------------------

| Id  | Operation         | Name | Rows  | Bytes | Cost (%CPU)| Time     |

--------------------------------------------------------------------------

|   0 | SELECT STATEMENT  |      |  1156K|   106M|  4464   (1)| 00:00:54 |

|   1 |  TABLE ACCESS FULL| T    |  1156K|   106M|  4464   (1)| 00:00:54 |

--------------------------------------------------------------------------

(篇幅原因,有删节…)

针对一般的SQL查询,是不使用Parallel Query特性的。下面针对Hint使用:

SQL> explain plan for select /*+ parallel */ * from t;

已解释。

已用时间:  00: 00: 00.06

SQL> select * from table(dbms_xplan.display(format => ‘advanced‘));

PLAN_TABLE_OUTPUT

----------------------------------------------------------------------------------------------------

Plan hash value: 3050126167

----------------------------------------------------------------------------------------------------

| Id  | Operation            | Name     | Rows  | Bytes | Cost (%CPU)| Time     |    TQ  |IN-OUT| PQ Distrib |

----------------------------------------------------------------------------------------------------

|   0 | SELECT STATEMENT     |          |  1156K|   106M|  2478   (1)| 00:00:30 |        |     |            |

|   1 |  PX COORDINATOR      |          |       |       |            |         |        |      |            |

|   2 |   PX SEND QC (RANDOM)| :TQ10000 |  1156K|   106M|  2478   (1)| 00:00:30 |  Q1,00 | P->S | QC

|   3 |    PX BLOCK ITERATOR |          |  1156K|   106M|  2478   (1)| 00:00:30 |  Q1,00 | PCWC |            |

|   4 |     TABLE ACCESS FULL| T        |  1156K|   106M|  2478   (1)| 00:00:30 |  Q1,00 | PCWP |            |

----------------------------------------------------------------------------------------------------

Automatic Degree of Parallelism Information:

--------------------------------------------

- Degree of Parallelism of 2 is derived from scan of object SYS.T

Note

-----

-automatic DOP: Computed Degree of Parallelism is 2

上面的执行计划,可以看出将全表扫描分割为多个DOP进行处理,之后汇总到协调者进程中,返回结果。

同时,使用parallel的hint后,没有显示指定出并行度。Oracle采用自动并行度方式,采用2作为并行度。

最后,时间使用上。估算出的执行计划只需要使用30s,而之前的串行计划则需要接近一分钟时间。

5、谨慎处理并行

最后,想谈谈并行的一些使用注意原则。

ü        慎用并行。并行处理使用的目的是在提高系统软硬件资源使用率,从而提高SQL执行效率。但是,并不是所有SQL使用并行都可以提高性能。同索引一样,使用并行也是有成本付出的,这就是多进程之间启动和协调成本。通常,只有在处理超大规模数据、而且没有其他常规优化方法,并且证明并行可以带来提升的情况下,才考虑使用并行;

ü        统一并行。同其他优化方案一样,并行是否使用,哪个SQL使用并行,并行度取值多少。这些问题不是单个模块和开发人员可以确定的,需要系统整体考虑。如果说索引消耗的是空间和处理资源的话,并行额外付出是处理CPU协调成本。这些优化方法最好有统一的优化方案全局考量和跟踪,决不能各行其是,引起性能新问题;

ü        确定并行。并行处理是需要各种参数进行配合使用的,我们希望使用并行,就要保证实际执行的语句确实在进行并行处理。这要通过不断的跟踪执行计划和处理过程来实现。

并行技术主要使用在OLAP中,也可以使用在OLTP或者混合系统中(hybrid systems)。
并行技术就是让多颗CPU干以前1颗CPU做的事情。

并行技术能够改善如下情况:
    1.查询时需要大表扫描、joins或者分区索引扫描
    2.创建大索引
    3.创建大表
    4.Bulk inserts, updates, merges, and deletes

使用并行技术最好有如下条件:
    1.对称多处理器
    2.足够的IO带宽
    3.空闲或者间歇使用的CPU(如cpu使用率长期低于30%)
    4.足够的内存(主要用来sorts, hashing, and I/O buffers)

如果你的系统缺少上面任何一个条件,那么并行技术并不能明显提高系统性能。

什么时候使用并行技术?
    数据仓库。在OLTP中,批量处理以及维护性操作同样可以使用并行技术,如创建索引。

什么时候不适合使用并行技术?
    1.短查询、短事务(the typical query or transaction is very short (a few seconds or less))
    2.CPU、内存或I/O资源没有空闲。

数据库哪些操作可以使用并行
    1.Access methods
        Some examples are table scans, index full scans, and partitioned index range scans.

2.Join methods
        Some examples are nested loop, sort merge, hash, and star transformation.

3.DDL statements
        Some examples are CREATE TABLE AS SELECT, CREATE INDEX, REBUILD INDEX, REBUILD INDEX PARTITION, and MOVE/SPLIT/COALESCE PARTITION.
        含有LOB字段的表无法使用DDL 并行技术(One important restriction is that parallel DDL cannot be used on tables with object or LOB columns.)
        
    4.DML statements
        Some examples are INSERT AS SELECT, updates, deletes, and MERGE operations.
    
    5.混合SQL操作:Miscellaneous SQL operations
        Some examples are GROUP BY, NOT IN, SELECT DISTINCT, UNION, UNION ALL, CUBE, and ROLLUP, as well as aggregate and table functions.

6.Parallel query
        如select,    DDL或者DML操作含有select语句的情况

7.SQL*Loader,这个应当重视。用于数据多的导入,如
        sqlldr USERID=SCOTT/TIGER CONTROL=LOAD1.CTL DIRECT=TRUE PARALLEL=TRUE

并行如何工作?How Parallel Execution Works
    并行技术把一个SQL任务(task)分成多个小单元,每一个小单元被分开处理。同样,incoming data (tables, indexes, partitions)也被分成多个微粒(granules)。

并行度: Degree of Parallelism
        并行技术协调2个或者多个并行执行服务(parallel execution servers)去处理一条SQL。并行执行服务(parallel execution servers)的数据量就称为"并行度"(degree of parallelism)。
        
        使用多CPU和磁盘来快速响应查询(queries)是并行技术的目的。但是,多个用户同时执行并行操作,CPU、内存及磁盘等资源会被快速耗尽。

 并行执行服务池:The Parallel Execution Server Pool
        实例启动,oracle创建一个并行执行服务池(The Parallel Execution Server Pool),这个池专门为并行操作服务。初始化参数 PARALLEL_MIN_SERVERS 决定了实例启动时,创
        建并行执行服务(parallel execution servers)的个数。

查询当前parameter parallel_min_servers参数
        SQL> show parameter parallel_min_servers

执行一个并行操作时,并行执行协调器(parallel execution coordinator)从并行执行服务池(The Parallel Execution Server Pool)获得并行执行服务器(parallel execution  servers),然后分配parallel execution servers去处理并行操作。如果需要,oracle会创建额外的并行执行服务(parallel execution servers),然后去处理并行操作。处理完毕    并行操作后,协调器把执行得到的数据结果返回给用户进程,然后把并行执行服务(parallel execution servers)还给并行执行服务池(The Parallel Execution Server Pool)。

执行一条SQL,优化器决定是否执行并行操作以及并行度(the degree of parallelism (DOP))是多少。并行度(DOP)决定从并行服务池(The Parallel Execution Server Pool)中获得的并行服务器个数,如果池中的并行服务器不够,那么协调器会创建新的并行执行服务器。

注意:
        1.并行执行协调器(parallel execution coordinator)和并行执行服务(the parallel execution servers)在一个时间段只能服务一个任务。一个并行执行协调器(the parallel execution servers)不能并行服务两个任务,比如一个协调器不能同时服务一个并写查询和一个并行DML操作。
        2.在SQL语句解析阶段协调器不会去调用并行执行服务器,只有在SQL语句的执行阶段才会去调用。

并行执行服务器数量的调整:Variations in the Number of Parallel Execution Servers
        1.oracle 实例(也就是内存)有明显变化,并行服务池中的并行执行服务器数量自动调整;
        2.并行操作明显增加,oracle会创建额外的并行服务器来满足需要。但是,并行执行服务器的数量绝对不会超过参数PARALLEL_MAX_SERVERS的设定值。
        3.并行操作减少,oracle终止空闲的并行执行服务器。但是,并行执行服务器的数量不会低参数PARALLEL_MIN_SERVERS的设定值。
        
        归纳成一个公式:
        PARALLEL_MIN_SERVERS <= 并行执行服务器的数量 <= PARALLEL_MAX_SERVERS

并行执行服务器数量不足时咋处理:Processing Without Enough Parallel Execution Servers
        oracle执行并行操作时,至少需要2个并行执行服务器。        
        比如当前只有5个并行执行服务器可用,而一条SQL需要30个并行执行服务器,执行该SQL的后果是执行速度很慢。可以通过设定参数PARALLEL_MIN_PERCENT(百分比)来解决这个问题。该参数使用于DML、DDL以及QUERY。    
        
        SQL申请并行执行服务器的数量*PARALLEL_MIN_PERCENT <= 当前可用并行执行服务器数量
        举个例子,一条SQL执行需要50个并行执行服务器,我们设定PARALLEL_MIN_PERCENT 值为20,那么该SQL最少需要50*20%=10个并行执行服务器。如果申请不到10个并行执行服务器进程,oracle就会报ora 12827错误。
        当参数PARALLEL_MIN_PERCENT设定为null时,SQL执行时,至少获取2个并行执行服务器。

模拟ORA-12827错误

SQL> create pfile from spfile;

File created.

SQL> shutdown immediate

修改初始化参数文件
cd $ORACLE_HOME/dbs
mv spfileemrep.ora spfileemrep.ora.bk
vi initemrep.ora 
---
*.parallel_max_servers=5
*.parallel_min_servers=2
*.parallel_min_percent=60
--

SQL> startup
ORACLE instance started.

生效
SQL> show parameter parallel
NAME                     TYPE            VALUE
------------------------------------ ---------------------- ------------------------------
parallel_max_servers             integer            5
parallel_min_percent             integer            60
parallel_min_servers             integer            2

表的并行度设为10
alter table d_test parallel 10;

现在表d_test的并行度设定为10,系统设置的parallel_min_percent为60
10*60%=6 > parallel_max_servers
也就是说至少有6个并行执行服务器,而现在parallel_max_servers只有5个

执行一条SQL
SQL> select count(*) from d_test;
select count(*) from d_test
                     *
ERROR at line 1:
ORA-12827: insufficient parallel query slaves available

报ORA-12827错误了。

把d_test的并行度设为8
alter table d_test parallel 8;

8*60%=4.8 < parallel_max_servers=5

再次执行SQL,不再报错
SQL> select count(*) from d_test;

COUNT(*)
----------
  21869366

设置并行度Setting the Degree of Parallelism for Parallel Execution,有下面几种方式:
        1.SQL语句级加PARALLEL hint(暗示)
            SELECT /*+ PARALLEL(orders, 4) */ COUNT(*) FROM orders;        
        2.session级别设置
            ALTER SESSION FORCE PARALLEL
        3.表级和索引级:
            ALTER TABLE orders PARALLEL 4;
            ALTER INDEX iorders PARALLEL 4;

 DDL操作设定DOP
         create table test parallel 4 as select * from d_test where rownum<100;
         create index time_idx on test(time) parallel 4;
         ALTER INDEX time_idx rebuild parallel 5;

oracle根据啥决定并行度
        1.SQL语句中的hint
        2.SESSION级别(ALTER SESSION FORCE PARALLEL)
        3.表级、索引级定义的级别
        
        并行度的优先级别从高到低:
        Hint->alter session force parallel->表,索引上的设定-> 系统参数
       
        在session可以决定开启或关闭表或索引设定的并行度,包括DML、DDL、QUERY
            关闭:ALTER SESSION DISABLE PARALLEL DML|DDL|QUERY;
            开启:ALTER SESSION ENABLE PARALLEL DML|DDL|QUERY;    
        session级别设定并行度:
        ALTER SESSION FORCE PARALLEL DML|DDL|QUERY PARALLEL 5;

oracle默认(the default DOP)并行度:
        1.根据cpu的个数、RAC实例数和PARALLEL_THREADS_PER_CPU决定。
        2.如果处理分区,分区的个数决定并行度。
        
        创建表默认并行度为1
        SQL> create table tt(id number);
        SQL> select table_name,degree from user_tables where table_name=‘TT‘;

  1. TABLE_NAME DEGREE
  2. --------------------------------------------- --------------------------------------------------------------------------
  3. TT 1

可以把表的并行度设为系统默认的并行度(the default DOP)
        alter table tt parallel;
        SQL> select table_name,degree from user_tables where table_name=‘TT‘;

点击(此处)折叠或打开

  1. TABLE_NAME DEGREE
  2. ------------------------------------------------------------ --------------------------------------------------------------------------------
  3. TT DEFAULT

Oracle Parallel特性是一柄双刃剑,要小心仔细对待。

时间: 2024-10-13 23:24:13

Oracle并行操作——从串行到并行(转)的相关文章

iOS多线程——同步异步串行并行

串行并行异步同步的概念很容易让人混淆,关于这几个概念我在第一篇GCD中有解释,但是还不够清晰,所以这里重写一篇博客专门对这几个概念进行区分: 先说一下队列和任务: (1)队列分为串行和并行,任务的执行分为同步和异步,异步是多线程的代名词,异步在实际引用中会开启新的线程,执行耗时操作. (2)队列只是负责任务的调度,而不负责任务的执行,任务是在线程中执行. 以上两点对了解串行.并行.同步.异步非常重要! 再说一下队列和任务的特点: (1)串行队列:任务按照顺序被调度,前一个任务不执行完毕,队列不会

【iOS开发-91】GCD的同步异步串行并行、NSOperation和NSOperationQueue一级用dispatch_once实现单例(转载)

(1)GCD实现的同步异步.串行并行. ——同步sync应用场景:用户登录,利用阻塞 ——串行异步应用场景:下载等耗时间的任务 /** * 因为是异步,所以开通了子线程,但是因为是串行队列,所以只需要开通1个子线程(2),它们在子线程中顺序执行.最常用. */ -(void)gcdDemo1{ dispatch_queue_t q1=dispatch_queue_create("com.hellocation.gcdDemo", DISPATCH_QUEUE_SERIAL); for

GCD的同步异步串行并行、NSOperation和NSOperationQueue一级用dispatch_once实现单例

转:http://www.tuicool.com/articles/NVVnMn (1)GCD实现的同步异步.串行并行. ——同步sync应用场景:用户登录,利用阻塞 ——串行异步应用场景:下载等耗时间的任务 /** * 因为是异步,所以开通了子线程,但是因为是串行队列,所以只需要开通1个子线程(2),它们在子线程中顺序执行.最常用. */ -(void)gcdDemo1{ dispatch_queue_t q1=dispatch_queue_create("com.hellocation.gc

Oracle 并行操作

SQL 语句缺省是在一个 CPU上串行(Serial)执行的,即便系统中有多个 CPU存在,一个 SQL 语句也无法利用它们.这样一来一个 CPU 所能使用的资源就决定了 SQL 语句的性能.这 时提升性能的另一种方法就应运而生,也就是并行处理--同时利用多个 CPU进行工作. 正统的理论界认为,企业的数据库有两种类型,OLTP 和 OLAP,前者用于业务处理,其 特点是大量的运行时间很短的事务型 SQL 语句,并行操作在这种系统中作用有限.后一种用于 数据分析,其特点是大量的查询型 SQL 语

IOS多线程知识总结/队列概念/GCD/串行/并行/同步/异步

进程:正在进行中的程序被称为进程,负责程序运行的内存分配;每一个进程都有自己独立的虚拟内存空间: 线程:线程是进程中一个独立的执行路径(控制单元);一个进程中至少包含一条线程,即主线程. 队列:dispatch_queue_t,一种先进先出的数据结构,线程的创建和回收不需要程序员操作,由队列负责. 串行队列:队列中的任务只会顺序执行(类似跑步) dispatch_queue_t q = dispatch_queue_create(“....”, dispatch_queue_serial); 并

iOS中的串行,并行,分组,一次,障碍,延迟,反复执行(GCD)

#import "OneViewController.h" @interface OneViewController () @end @implementation OneViewController - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. } - (void)didReceiveMemoryWarning { [super didRece

FS BPM 业余研发(用户详细操作手册--单人串行/并行)之 深圳分公司技术部请假审批流程

1.FS BPM 简介 BPM软件中BPM是英文字母缩写,大致有二个意思.第一.Business Process Management,即业务流程管理,是一套达成企业各种业 务环节整合的全面管理模式.第二.Business Process Modeling,即业务流程建模,是对业务流程进行表述的方式,它是过程分析与重组的 重要基础. 如果再不了解请自行百度了,本人在这里就不再详细介绍了. 2.FS BPM 系统开发介绍 FS BPM于2017年1月开始进行开发.其中经历多个难题.用高性能机制解决

python 的串行和并行

import asyncio import time #串行 #asyncio.run() async def say_after(delay, what): await asyncio.sleep(delay) print(what) async def main(): print(f"started at {time.strftime('%X')}") await say_after(2, 'hello') await say_after(1, 'world') print(f&q

Oracle时间一串数字转为日期格式

一.前台处理 js中接收到后台返回的json字符串中的日期类型的字段都变成了一串数字,例如:1500341149000.所以我们需要将这个串格式化形如:2017-07-18 09:25:49. 1.首先在js中加入格式化函数 //封装转换函数 Date.prototype.Format = function(fmt) { //author:wangweizhen var o = { "M+" : this.getMonth()+1, //月份 "d+" : this