mysql数据去除重复及相关优化（转）

由于mysql不支持同时对一张表进行操作，即子查询和要进行的操作不能是同一张表，因此需要通过临时表中专以下。

1、单字段重复

生成临时表，其中uid是需要去重的字段

create table tmp_uid as (select uid from user_info group by uid having count(uid))

create table tmp_id as (select min(id) from user_info group by uid having count()uid)

数量量大时一定要为uid创建索引

alter table tmp_uid add index 索引名 (字段名)

alter table tmp_id add index 索引名 (字段名)

删除多余的重复数据，保留重复数据中id最小的

delete from user_info
where id not in (select id from tmp_id)
and uid in (select uid from tmp_uid)

2、多字段重复

如以上由于uid的重复间接导致了relationship中的记录重复，所以继续去重。

2.1 一般方法

基本的同上面：

生成临时表

create table tmp_relation as (select source,target from relationship group by source,target having count(*)>1)

create table tmp_relationship_id as (select min(id) as id from relationship group by source,target having count(*)>1)

创建索引

alter table tmp_relationship_id add index 索引名(字段名)

删除

delete from relationship
where id not in (select id from tmp_relationship_id)
and (source,target) in (select source,target from relationship)

2.2 快速方法

实践中发现上面的删除字段重复的方法，由于没有办法为多字段重建索引，导致数据量大时效率极低，低到无法忍受。最后，受不了等了半天没反应的状况，本人决定，另辟蹊径。

考虑到，估计同一记录的重复次数比较低。一般为2，或3，重复次数比较集中。所以可以尝试直接删除重复项中最大的，直到删除到不重复，这时其id自然也是当时重复的里边最小的。

大致流程如下：

（1）、选择每个重复项中的id最大的一个记录

create table tmp_relation_id2 as (select max(id) from relationship group by source,target having count(*)>1)

（2）、创建索引（仅需在第一次时执行）

alter table tmp_relation_id2 add index 索引名 (字段名)

（3）、删除重复项中id最大的记录

delete from relationship where id in (select id from tmp_relation_id2)

（4）、删除临时表

drop table tmp_relation_id2

重复上述步骤（1），（2），（3），（4），直到创建的临时表中不存在记录就结束（对于重复次数的数据，比较高效）

本文章转自 http://www.cnblogs.com/rainduck/archive/2013/05/15/3079868.html

时间： 2024-07-29 07:17:30

mysql数据去除重复及相关优化（转）的相关文章

自己动手丰衣足食,夜谈MySQL数据库去除重复记录最快的方法

mysql数据库重复插入了一些数据,想删除保留一条,查找了很多方案,类似这种以及这种的初试了一下,感觉可能达到效果,但是速度太慢了,几十上百条数据还可以,几十上百万条,mysql.exe 进程基本上就跑满cpu了,半天出不来结果.大家都是程序员,就该有程序员的样子,不能完全依赖于sql语句,可以写个小工具变通下.思路如下:单字段重复的时候,就写个工具查询这个字段,附带记录这个字段的主键,然后请看代码,我这边是zblog的数据库,手动插入了很多博文数据,重复了一些.批量导入代码 var dat

mysql 去除重复数据语句

纠结的过程: mysql> select * from role group by role_name,deleted; +---------+-----------+---------+ | role_id | role_name | deleted | +---------+-----------+---------+ | 2 | xue | 12 | | 1 | zhao | 12 | | 3 | zhao | 13 | +---------+-----------+---------+

mysql 去除重复数据

1. 问题描述有时load或者insert操作导致表数据有重复 2. 解决方案通过临时表.主键id.倒腾去重示例 2.1 create table student( name varchar(30) not null default '', age smallint(3) not null default 0, love varchar(50) not null default '' ) 插入一些数据......(包含重复) insert into student(name,age,l

使用pandas模块帮助朋友处理mysql中的重复数据

接到朋友求助,说自己一个数据库里的某个表有大量重复数据,使用mysql语句处理的速度太慢,每次只能处理1W条数据,总共800W条数据需要处理,耗时耗力.分开处理也会有大量的遗漏数据需要二次三次处理,最后得到的数据还是会不准确,很显然用mysql语句处理不怎么好. 我想到了python中有一个模块pandas是专门用来处理海量数据的,马上网上查下该模块是否有相关的方法,果然,pandas里的drop_duplicates方法就是用来去除重复数据的,并且该方法还提供了多个参数. 朋友的需求为数据库表

mysql 去除重复 Select中DISTINCT关键字的用法

在使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的所有值.其原因是 distinct只能返回它的目标字段,而无法返回其它字段,这个问题让我困扰了很久,用distinct不能解决的话,我只有用二重循环查询来解决,而这样对于一个数据量非常大的站来说,无疑是会直接影响到效率的.所以我花了很多时间来研究这个问题,网上也查不到解决方案,期间把容容拉来帮忙,

mysql数据优化

1. 为查询缓存优化你的查询大多数的MySQL服务器都开启了查询缓存.这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的.当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中,这样,后续的相同的查询就不用操作表而直接访问缓存结果了. 这里最主要的问题是,对于程序员来说,这个事情是很容易被忽略的.因为,我们某些查询语句会让MySQL不使用缓存.请看下面的示例: 复制代码代码如下: // 查询缓存不开启 $r = mysql_query("SELECT usern

按天去除重复数据,为0则取0,否则取最大的那个值

测试数据: mysql> select * from t2; +----+--------+---------------------+------------+ | id | userid | inputDate | infoStatus | +----+--------+---------------------+------------+ | 1 | 1 | 2014-07-11 00:00:00 | 20013 | | 2 | 1 | 2014-07-11 00:00:00 | 0 |

MySQL中删除重复数据的简单方法，mysql删除重复数据

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考. 第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表 create table tmp3 as select min(id) as col1 from data_content

JAVA数组去除重复数据

一.用List集合实现 int[] str = {5, 6, 6, 6, 8, 8, 7,4}; List<Integer> list = new ArrayList<Integer>(); for (int i=0; i<str.length; i++) { if(!list.contains(str[i])) { list.add(str[i]); } } System.out.println("去除重复后的list集合"+list); 输出结果是