PostgreSQL之分区表(partitioning)

PostgreSQL有一项非常有用的功能,分区表,或者partitioning。当某个TABLE的记录非常的多,千万甚至更多的时候,我们其实需要将他分割成子表。一个庞大的TABLE,就像水果仓库杂乱无章地堆放着无数的苹果桃子和桔子,查找不方便,性能降低,比较合理的做法是将仓库分成三个子区域,分表放苹果桃子和桔子。一张大表就变成了三个小表的集合。

通过合理的设计,可以将选择一定的规则,将大表切分多个不重不漏的子表,这就是传说中的partitioning。比如,我们可以按时间切分,每天一张子表,比如我们可以按照某其他字段分割,总之了就是化整为零,提高查询的效能。

怎么实现这个分区表的功能呢?

    1 建立大表。

    2 创建分区继承

    3 定义Rule或者Trigger

下面根据一个简单的例子,描述这个过程。我们将学生按照低于60分和不低于60分切分成两张子表。

1 建立大表 

CREATE TABLE student (student_id bigserial, name varchar(32), score smallint);

2 创建分区继承

CREATE TABLE student_qualified (CHECK (score >= 60 )) INHERITS (student) ;
CREATE TABLE student_nqualified (CHECK (score < 60)) INHERITS (student) ;

创建了两个分区表,student_qualified和student_nqualified,继承了大表student的一切字段,同时设定了约束,即CHECK条件。

3 定义Rule或者Trigger

虽然我们定义了CHECK条件,但是往student插入数据时,PostgreSQL并不能根据score是否低于60插入的正确的子表,原因是,你并没有定义这种规则,来告诉数据这么做。我们需要定义Rule或者Trigger,将数据插入到正确的分区表。

先看下Rule的定义:

CREATE OR REPLACE RULE insert_student_qualified 
AS ON INSERT TO student 
       WHERE score >= 60
       DO INSTEAD
       INSERT INTO student_qualified VALUES(NEW.*);

CREATE OR REPLACE RULE insert_student_nqualified 
AS ON INSERT TO student 
       WHERE score < 60
       DO INSTEAD
       INSERT INTO student_nqualified VALUES(NEW.*);

这两个Rule告诉了PostgreSQL,当往总表插数据的时候,如果是score< 60,则插入student_nqualified,如果score>=60,则插入student_qualified.注意了,这个分割一定要不重不漏,如果我们不小心将>=60条件的“=”丢掉,等于60分的记录将会录入大表student,不在任何一个分区表中。

我们插入一些记录:

INSERT INTO student (name,score) VALUES(‘Jim‘,77);
INSERT INTO student (name,score) VALUES(‘Frank‘,56);
INSERT INTO student (name,score) VALUES(‘Bean‘,88);
INSERT INTO student (name,score) VALUES(‘John‘,47);
INSERT INTO student (name,score) VALUES(‘Albert‘,‘87‘);
INSERT INTO student (name,score) VALUES(‘Joey‘,‘60‘);

我们看下数据分布情况,是否分布到了正确的的分区表:

SELECT p.relname,c.tableoid,c.* 
FROM student c, pg_class p
WHERE c.tableoid = p.oid

输出如下:

我们看到,虽然我们插入的是大表,但是数据却存在了对应的分区子表。符合我们的期望。同时还不影响查询。



Rule是一个分流的办法,还有TRIGGER也能做到让正确的数据流向正确的分区子表。

首先我们定义个function。

CREATE OR REPLACE FUNCTION student_insert_trigger()
RETURNS TRIGGER AS 
$$
BEGIN
     IF(NEW.score >= 60) THEN
         INSERT INTO student_qualified VALUES (NEW.*);
     ELSE 
         INSERT INTO student_nqualified VALUES (NEW.*);
     END IF;
     RETURN NULL;
END;
$$
LANGUAGE plpgsql ;

然后定义TRIGGER,当插入到student之前,就会触发trigger:

CREATE TRIGGER insert_student 
    BEFORE INSERT ON student
    FOR EACH row
    EXECUTE PROCEDURE student_insert_trigger() ;

我们首先通过删除TABLE student,测试下trigger方式。

DROP TABLE STUDENT CASCADE

CREATE TABLE student (student_id bigserial, name varchar(32), score smallint) ;
CREATE TABLE student_qualified (CHECK (score >= 60 )) INHERITS (student) ;
CREATE TABLE student_nqualified (CHECK (score < 60)) INHERITS (student) ;

然后执行定义FUNCTION和定义TRIGGER的语句。就可以查看了。

执行插入:

INSERT INTO student (name,score) VALUES(‘Jim‘,77);
INSERT INTO student (name,score) VALUES(‘Frank‘,56);
INSERT INTO student (name,score) VALUES(‘Bean‘,88);
INSERT INTO student (name,score) VALUES(‘John‘,47);
INSERT INTO student (name,score) VALUES(‘Albert‘,‘87‘);
INSERT INTO student (name,score) VALUES(‘Joey‘,‘60‘);

执行下查询:

SELECT p.relname,c.tableoid,c.* 
FROM student c, pg_class p
WHERE c.tableoid = p.oid

输出如下:

时间: 2024-11-05 14:53:42

PostgreSQL之分区表(partitioning)的相关文章

【PostgreSQL】分区表

PostgreSQL中的分区表是通过表继承来实现的(表继承博客http://www.cnblogs.com/NextAction/p/7366607.html).创建分区表的步骤如下: (1)创建“父表”,所有的分区表都从这张表继承.“父表”中不存数据,也不要定义约束和索引. (2)创建“子表”,所有“子表”都是从“父表”中继承而来.这些“子表”就是所谓的分区,其实它们也是PostgreSQL表. (3)给分区表创建约束. (4)在分区表上创建索引. (5)创建触发器,把对“父表”的插入重定向到

PostgreSQL PARTITION 分区表

PostgreSQL 分区表,操作性相当便捷. 但只能在创建时决定是否为分区表,并决定分区条件字段,普通表创建后,不能在修改为分区表. Note:通过其他方法也可转化为分区表. 和其他数据库一样,分区表作为一个DB的特性,优点自不用说,物理分散,逻辑统一. 必须要注意的一个缺点是:分区表不允许其他表作为外键引用.只能在真实场景业务逻辑上当作外键,设计时论场景再推敲. 同时,在Pg 11以前只能单独为每个分区表建立索引等,且不能在[母表]上建立主键.索引等. Pg 11以后可以针对"逻辑"

PostgreSQL 创建分区表(转 仅供自己参考)

典型使用场景 随着使用时间的增加,数据库中的数据量也不断增加,因此数据库查询越来越慢. 加速数据库的方法很多,如添加特定的索引,将日志目录换到单独的磁盘分区,调整数据库引擎的参数等.这些方法都能将数据库的查询性能提高到一定程度. 对于许多应用数据库来说,许多数据是历史数据并且随着时间的推移它们的重要性逐渐降低.如果能找到一个办法将这些可能不太重要的数据隐藏,数据库查询速度将会大幅提高.可以通过DELETE来达到此目的,但同时这些数据就永远不可用了. 因此,需要一个高效的把历史数据从当前查询中隐藏

Postgresql 添加分区表(按月和按日通用)

建了分区表的同学相信添加分区表很头疼,如果有按月分区又有按日分区的,而且是通过"_yyyymmdd"或者"_yyyymm"后缀进行分区的,那么可以用这个函数进行添加分区 CREATE OR REPLACE FUNCTION f_add_partition() RETURNS void LANGUAGE plpgsql AS $function$ declare v_max_childname text;  --最大子表名称 v_parentname text;  -

PostgreSQL的分区表建立

在数据库日渐庞大的时候,为了方便对数据库数据的管理,比如按时间,按地区去统计一些数据时,基数过于庞大,多有不便.很多商业数据库都提供分区的概念,按不同的维度去存放数据,便于后期的管理,PG也不例外.下面是分区表创建步骤: 1.建立主表 create table parent_table( id int, name character varying(20), create_time timestamp without time zone); 2.建立子表,继承于主表 create table p

Hive管理表分区的创建,数据导入,分区的删除操作

Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法.在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象.而在Postgresql中分区表其实相当于分别建立了很多小表,其实和Oracle是异曲同工罢了. 在HIVE中的管理表其实就是在数据库目录下的一个和表名称一样的目录,数据文件都存放在该目录下,如果在Hive中查询一张表数据,那就需要遍历该目录下的所有数据文件,如果表的数据非常庞大,那查询性能会很不好. 管

postgre与mysql区别

SQL兼容性 PostgreSQL 9.5 兼容 SQL:2011 子集 http://www.postgresql.org/docs/9.5/static/features-sql-standard.html MySQL 5.7 兼容 SQL:1999 子集 功能差异 - 高级SQL 递归查询, connect by, 树形查询 PostgreSQL 通过(with 或 tablefunc支持)支持,MySQL 不支持 例子 https://yq.aliyun.com/articles/240

postgresql分区表创建

postgresql中,并没有分区表的创建命令,是通过创建继承表及约束等规则来创建,步骤繁琐且麻烦,封装了一个方法.便于创建分区表: CREATE TABLE "odl"."user_action_fatt0" ( "date_id" numeric(8,0), "chnl_id" numeric(2,0), "user_acct_type" numeric(2,0), "user_id"

postgresql 分区表

1.普通方式建立主表 create table tbl_partition( id integer, name varchar(20), gender boolean, join_date date, dept char(4) ) 2.创建分区表.(注意加上约束和继承) create table tbl_partition_201211( check( join_date>=DATE '2012-11-01' and join_date< DATE '2012-12-01' ) )inheri