Greenplum/PostgreSQL中数据表数据去重的几种方法

GP主要用于数据仓库领域，在GP数据库中，如果由于ETL重复跑数导致数据重复的话，就需要进行去重复操作。

一种方法是把某一时间段的数据全部删掉，然后重新跑数据，这样其实工作量也比较大，需要补数据，重跑ETL。

另一种方法就是把重复的数据删掉就行，本文就是针对Greenplum分布式数据库如何进行去重复删除操作。

对于在PostgreSQL中，唯一确定一行的位置的是用ctid,可以用这个ctid作为一行的唯一标识；在Oracle中，数据表中的一行的唯一标识可以使用ROWID进行标识，这作为这一行的物理地址信息。而在GP中，要唯一的标识出一行表数据，需要使用gp_segment_id加上ctid进行标识。 gp_segment_id代表的是GP的segment的节点标识，每个子库的标识是唯一的。

因此删除重复数据的语句可以这么写：

delete from public.ods_m_automonitor_monitor_hour where gp_segment_id::varchar(100)||ctid::varchar(100) in
(select t.ctid from
(select gp_segment_id::varchar(100)||ctid::varchar(100) as ctid,mn_code,pollute_code,monitor_time,
row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num
from public.ods_m_automonitor_monitor_hour ) t
where t.rows_num >=2);

这种语句适合所有的GP表，特别对那种没有唯一主键的数据仓库的表进行去重很有用。

先分析下，第一步：

select gp_segment_id::varchar(100)||ctid::varchar(100) as ctid,mn_code,pollute_code,monitor_time,
row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num
from public.ods_m_automonitor_monitor_hour

查出来public.ods_m_automonitor_monitor_hour表中字段

gp_segment_id::varchar(100)||ctid::varchar(100) as ctid,mn_code,pollute_code,monitor_time

其中mn_code,pollute_code,monitor_time这几个字段是这个表中能够保证唯一性的字段，也就是这几个字段的值的任一某个组合在这张表只能出现一次，只要出现2次以上，就说明

数据重复了。

然后通过row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num对这几个字段进行分组排序

通过在外层对这个排序字段rows_num进行条件判断：where t.rows_num >=2，就能过滤出重复的表数据。

然后再通过外部条件进行筛选，获取出这部分重复数据的行数据唯一标识：

delete from public.ods_m_automonitor_monitor_hour where gp_segment_id::varchar(100)||ctid::varchar(100) in
(select t.ctid from ……)就可以去重重复。

另外，如果表中有唯一标识行的pkid，也就是说有主键ID的话，那直接用PKID作为去重字段：

delete from public.ods_m_automonitor_monitor_hour where pkid in
(select pkid from
(select pkid,mn_code,pollute_code,monitor_time,
row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num
from public.ods_m_automonitor_monitor_hour ) t
where t.rows_num >=2);

postgresql中去重：

delete from public.ods_m_automonitor_monitor_hour where ctid in
(select ctid from
(select ctid,mn_code,pollute_code,monitor_time,
row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num
from public.ods_m_automonitor_monitor_hour ) t
where t.rows_num >=2);

另外：

oracle中去重：

delete from public.ods_m_automonitor_monitor_hour where ROWID in
(select ROWID from
(select ROWID,mn_code,pollute_code,monitor_time,
row_number() over (partition by mn_code,pollute_code,monitor_time) rows_num
from public.ods_m_automonitor_monitor_hour ) t
where t.rows_num >=2);

原文地址：https://www.cnblogs.com/nanshanjushi/p/11335286.html

时间： 2024-11-05 13:37:05

Greenplum/PostgreSQL中数据表数据去重的几种方法

Greenplum/PostgreSQL中数据表数据去重的几种方法的相关文章

清空SQL Server数据库中所有表数据的方法

Greenplum数据库中系统表pg_class详解

Greenplum数据库中系统表gp_ distribution_ policy详解

将Excel数据导入mysql数据库的几种方法

用easyui从servlet传递json数据到前端页面的两种方法

js中数组去重的几种方法

Struts2中Action取得表单数据的几种方法

问题-[Access]“无法打开工作组信息文件中的表 'MSysAccounts'”的问题的解决方法

PHP中获取文件扩展名的N种方法

在JS方法中返回多个值的三种方法