Oracle海量数据(1000w+)重复数据删除方法

方法1:delete from xxx(表名) where rowid not in( select max/min(rowid) from xxx(表名) group by xxx(需要去重的列名,可以跟逗号实现多个列名去重))。

此方法采用直接删除的方法。但是效率比较低,数据量小的话可以使用。对于超过100w的数据推荐用方法2.

方法2:create table xxx(自定义表名) as select *(如果只需要部分列就直接把需要的列写出来) from xxx(表名)where rowid in (select max/min(rowid) from xxx(表名) group by xxx(需要去重的列名,可以跟逗号实现多个列名去重))

此方法采用将非重复数据导出至中间表的方法。可将原表drop,中间表重命名。也可以将中间表数据再导回至原表(暂未实践)。此方法效率较方法1效率有极大的提高。推荐用此方法。

原文地址:https://www.cnblogs.com/sy-gbl/p/11834006.html

时间: 2024-10-24 13:15:04

Oracle海量数据(1000w+)重复数据删除方法的相关文章

何时使用重复数据删除技术?

大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术. 只有备份还不够.重复数据删除与压缩即将成为主存储的必备功能. 重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针,来最小化数据量.这个指针通过给定大小的数据模式进行哈希创建. 也许在于你已经在备份系统上实施了重复数据删除备份和归档多年,问题在于:是否需要在主存储上运用重复数据删除与压缩技术? 并非所有的重复数据删除技术都一样.IT专业人士在将其添加到主存储环境之前,应该

Windows 8.1 重复数据删除——概念(一)

功能描述 重复数据删除指的是在数据中查找和删除重复内容,而不会影响其保真度或完整性.其目标是通过将文件分割成大小可以改变 (32-128 KB) 的小区块.确定重复的区块,然后为每个区块保留一个副本,从而在更小的空间中存储更多的数据.区块的冗余副本由对单个副本的引用所取代.区块会进行压缩,然后以特殊的容器文件形式组织到 System Volume Information 文件夹中. 针对卷启用了重复数据删除而且对数据进行优化之后,卷中会包含以下内容: 未优化的文件:例如,未优化的文件可以包括:无

重复数据删除(dedup)技术介绍 1

重复数据删除(de-duplication)是存储领域,尤其是数据备份领域的一个非常重要的概念.其目的是删除重复的数据块,从而减少对存储空间的使用. 这种想法的出发点是非常自然的.通常情况下,每次备份的数据总是会有一部分跟上一次备份的数据重合. 比如,每次备份都要包含一个100MB的文件,那么这个文件就会重复出现在所有的备份数据中. 经过多次备份操作之后,重复的数据块就会占用可观的存储空间,而实际上,这些重复的数据块保留一份就足够了. dedup就是为了解决这种问题而产生的. dedup和数据压

Hyper-v Server重复数据删除技术

Hyper-v Server重复数据删除技术 老衲听说windows Server 2012中新增了一项技术叫做重复数据删除,据说这个重复数据删除可以大大的节省磁盘的空间,下面我们来看看什么是重复数据删除: 重复数据删除指的是在数据中查找和删除重复内容,而不会影响其保真度或完整性.其目标是通过将文件分割成大小可以改变 (32-128 KB) 的小区块.确定重复的区块,然后为每个区块保留一个副本,从而在更小的空间中存储更多的数据.区块的冗余副本由对单个副本的引用所取代.区块会进行压缩,然后以特殊的

重复数据删除(De-duplication)技术研究(SourceForge上发布dedup util)

dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间.目前已经在Sourceforge上创建项目,并且源码正在不断更新中.该工具生成的数据包内部数据部局(layout)如下: --------------------------------------------------| header | unique block data | file metadata |--------------------------------

1.6.6 De-Duplication(重复数据删除)

1. 重复数据删除 solr通过<Signature>类的类型来支持重复数据删除技术的.一个Signature可以通过以下几种方式实现:  方法 描述  MD5Signature  128位hash用于副本探测解析.  Lookup3Signature  64位hash用于副本探测解析.比MD5更快,索引更小.  TextProfileSignature  从Nutch中的模糊散列实现的近重复检测.它是可以调节的,对于长文本字段处理具有较好的效果. 注意: 添加副本处理将改变allowDups

禁用Windows重复数据删除

重复数据删除,可以减少磁盘占用,但使用不当也有可能增加IO,另外,也为此功能会将硬盘分块,所以当硬盘占用较高时,进行碎片整理也比较困难,所以有时需要禁用掉重复数据删除功能,并解除重复数据的优化,可以通过以下方法进行:(附:俺之所以禁用它是因为一运行VirtualBox磁盘就各种无响应) 管理员模式进入Powershell 运行查看重复数据删除的优化情况 Get-DedupStatus -Volume D: 禁用重复数据删除 Disable-DedupVolume -Volume D: 如果需要的

Windows Server 2012R2之重复数据删除实战

Windows 8.1重复数据删除理论与windows server 2012R2重复数据删除理论相似,相关理论信息请参考: Windows 8.1 重复数据删除--概念(一)and Windows 8.1 重复数据删除--规划部署(二) 相关理论信息不再赘诉,具体请参考相应官网信息.需提前申明,如系统奔溃或磁盘更换等因素导致数据不完整情况请重新开启对应操作系统上重复数据删除功能以保证数据的完整与可用性(注:Windows 7上暂时还未在官网收到支持相关信息).启用及配置步骤如下: 一.启用wi

Windows 8.1 重复数据删除——规划部署(二)

一.规划部署目标   Windows 8.1&Server 2012 的重复数据删除设计为安装到主要数据卷上,而无需添加任何附加的专用硬件.这意味着你可以安装和使用该功能,而不会影响服务器上的主要工作负载.默认设置为非侵入性的,因为它们允许在处理特定文件之前数据"存留时间"达到五天,默认的最小文件大小为 32 KB.该实现是为低内存和 CPU 利用率而设计的.如果内存利用率变高,则重复数据删除功能将等待可用的资源.管理员可以根据所涉及数据的类型以及该卷或特定文件类型的更改频率和