使用pandas模块帮助朋友处理mysql中的重复数据

接到朋友求助，说自己一个数据库里的某个表有大量重复数据，使用mysql语句处理的速度太慢，每次只能处理1W条数据，总共800W条数据需要处理，耗时耗力。分开处理也会有大量的遗漏数据需要二次三次处理，最后得到的数据还是会不准确，很显然用mysql语句处理不怎么好。

我想到了python中有一个模块pandas是专门用来处理海量数据的，马上网上查下该模块是否有相关的方法，果然，pandas里的drop_duplicates方法就是用来去除重复数据的，并且该方法还提供了多个参数。

朋友的需求为数据库表里的某个字段的记录不能重复，如果重复则保留最新的数据。需求已经明白，马上开始动工。

使用Navicat 先将数据库里的需要处理的表同步到本地，然后在本地操作。

直接上代码

import pymysql
import pandas as pda
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8")
sql="select * from table001"
data1 = pda.read_sql(sql,conn)
print(data1.count())
data2 = data1.drop_duplicates(subset="big",keep="last")
data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False)
print(data2.count())

table001表为原始表,big为表里不能重复的字段，keep="last"代表留重复数据的最后一条，table002表为清洗完数据保存数据的表。

运行该脚本，十来分钟左右，800W条数据已经全部清洗完毕，还剩余200W条不重复数据，并且还和朋友正确的数据一条不差。

随后将数据表上传至朋友的线上服务器，朋友验证数据都没问题。

原文地址：https://blog.51cto.com/wuliu92/2407282

时间： 2024-10-08 01:50:31

使用pandas模块帮助朋友处理mysql中的重复数据的相关文章

mysql中删除重复数据

//首先我们需要知道我们重复的都有哪些数据, //第一步:进行对数据表进行分组,group by. //第二步:进行后通过having进行限制筛选,条数大于等于2的 //第三步:进行多表删除. //案例: //第一步,进行对数据分组,并通过having进行限制筛选,获得存在重复数据老王,如下: //第二步,进行删除,请仔细看删除语句,我们把筛选出来的 AS t2 当做子表.来进行筛选. 例如id和id的下一位进行比较,如果name相同,就删除. //请仔细看下面这句代码,删除的关键 mysql>

MySQL中删除重复数据的简单方法，mysql删除重复数据

MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式,用这个方式,五百万数据,十来分钟就全部去除重复了,请各位参考. 第一步:从500万数据表data_content_152里提取出不重复的字段SFZHM对应的ID字段到TMP3表 create table tmp3 as select min(id) as col1 from data_content

Mysql 中删除重复数据（保留一条）

sql去重先根据需要去重的字段进行分组,取到主键值最小的记录(id 是主键,删除重复的 record_id 的记录) select min(id) from tb_traffic_wf_record t group by t.record_id 然后删除不在上面的记录里的数据,就行了 delete from tb_traffic_wf_record where id not in (select min(id) from tb_traffic_wf_record as t group by t

MySQL中删除重复数据只保留一条

用SQL语句,删除掉重复项只保留一条在几千条记录里,存在着些相同的记录,如何能用SQL语句,删除掉重复的呢 1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断 SELECT * FROM people WHERE peopleId IN ( SELECT peopleId FROM people GROUP BY peopleId HAVINGcount(peopleId) > 1 ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3

MySQL中快速复制数据表方法汇总

本文将着重介绍两个MySQL命令的组合,它将以原有数据表为基础,创建相同结构和数据的新数据表. 这可以帮助你在开发过程中快速的复制表格作为测试数据,而不必冒险直接操作正在运行的数据表. 示例如下: 将 production 数据库中的 mytbl 表快速复制为 mytbl_new,2个命令如下: CREATE TABLE mytbl_new LIKE production.mytbl; INSERT mytbl_new SELECT * FROM production.mytbl; 第一个命令

Mysql 如何删除数据表中的重复数据!

1.使用distinct查询所有不重复的记录 2.创建数据表相同结构的临时表,将第一步的数据复制进去 create temporary table if not exists student_temp as (select distinct(name), sex from student); 3.truncate table student; 4.insert into student(id,name,sex) select null,name,sex from student_temp; My

mysql中插入中文数据

今天遇到的问题使mysql中插入中文数据后显示乱码,我在mysql中插入中文的时候,可以插入可是select的时候却无法显示,为此我写下这篇博客用于解决mysql插入中文. 由于有些截图没有记录下来,但是为了说明问题,我借用了别人的图,主要是为了完整的描述问题,在没有任何修改的时候,我们可以在mysql命令行中敲入以下指令,其结果如下所示: show variables like 'character%'; 可以看到,以上的编码并不支持中文,所以我们需要改变他们的编码(我这里是改成了utf8格式

MySQL 处理重复数据：防止表中出现重复数据、统计、过滤、删除重复数据

MySQL 处理重复数据有些 MySQL 数据表中可能存在重复的记录,有些情况我们允许重复数据的存在,但有时候我们也需要删除这些重复的数据. 本章节我们将为大家介绍如何防止数据表出现重复数据及如何删除数据表中的重复数据. 防止表中出现重复数据你可以在 MySQL 数据表中设置指定的字段为 PRIMARY KEY(主键) 或者 UNIQUE(唯一) 索引来保证数据的唯一性. 让我们尝试一个实例:下表中无索引及主键,所以该表允许出现多条重复记录. CREATE TABLE person_tbl

除去文件中的重复数据

1.先对文件内容排序:cat 1.txt |sort > 2.txt 保存到2.txt中 2.使用vim打开2.txt 执行替换命令: 替换空格:%s/ //g 替换tab:%s/^I//g (注意:^I 是直接按键盘是的tab键) 替换$: %s/^M//g (注意:^M 是按ctrl+v 再按Enter键) 3.cat 2.txt | uniq > 3.txt 本文为Eliot原创,转载请注明出处:http://blog.csdn.net/xyw_blog/article/detai

猜你喜欢

JavaScript数据结构持续更新中。。一周后可完结

array: 数组创建: var troop=new Array(6); //创建一个长度为6的数组 var troop=new Array(2,3,5,6,4,7); 数组方法: var str=& ...

http://poj.org/problem?id=3278(bfs)

Catch That Cow Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 76935 Accepted: 24323 ...

【转】一个数组中有三个数字a、b、c只出现一次，其他数字都出现了两次。请找出三个只出现一次的数字。

转自:http://zhedahht.blog.163.com/ 题目:一个数组中有三个数字a.b.c只出现一次,其他数字都出现了两次.请找出三个只出现一次的数字. 分析:在博客http://zhed ...

Anfroid 在界面中显示图片 ImageView

ImageView1.什么是ImageView是显示图片的一个控件2.ImageView属性android:src ImageView的内容颜色 android:background ImageVie ...

周三小组--以弗所书--20150423

今晚Francis分享了自己带培训标语过关的经历.手就是广告啊, 香港印刷便宜.Francis是过关高手. tony分享了自己公司搬家的经历. 原房东因为租金上涨,希望涨租.tony觉得之前口头约定过 ...

如何给iMindMap移动版添加分支

我们只有不断的在iMindMap导图中添加分支来开拓思维,填充整个导图的内容,iMindMap Android版中我们又是通过怎样的方式来天机分支的呢.下面本篇iMindMap教程就教你在iMindM ...

XHR2 和[FromBody]使用说明

[FromBody]必须是application/json 否则会报415 不支持的类型 //Forms function FormsPost(data) { //Default Type x-www ...

Linux基础正则表达式:grep,sed

http://www.midifan.com/moduleuser-index-420384.htmhttp://www.midifan.com/moduleuser-index-420587.htm ...

PHP课程总结20161219

今天的课程,老师主要介绍了变量作用域的相关内容,以及几种函数(function)的用法. 一.总结 1.全局变量:定义在函数外面的变量.在函数(function)中使用,需要声明它是全局变量,方法:g ...

获得其他程序弹出菜单的内容（一个困扰许久的问题o(╯□╰)o）

刚开始到现在公司的时候接到一个任务:开发一个activex控件,自动操作本地exe程序,当时遇到弹出菜单无法获取的问题,还好不影响,最近又遇到这个问题,绕不过去了,于是昨天花了一个上午百度了个遍,总算 ...

通过AJAX和PHP，提交JQuery Mobile表单

通过AJAX和PHP,提交JQuery Mobile表单 File name: callajax.php <?php $firstName = $_POST[firstName]; $las ...

如何理解和使用Java package包

Java中的一个包就是一个类库单元,包内包含有一组类,它们在单一的名称空间之下被组织在了一起.这个名称空间就是包名.可以使用import关键字来导入一个包.例如使用import java.util.* ...

基础linux命令总结

切换目录 cd ~ 回家目录 cd - 回刚才的目录 cd .. 回上级目录 cd 回家目录 ------ 显示当前所在目录 pwd 显示实际路径而非连接路径 pwd -P ------ 建立新目录 ...

自定义View时，用到Paint Canvas的一些温故，只有想不到没有做不到（实例 1，画一个简单的Activity并且实现他能实现的）

转载请注明出处:王亟亟的大牛之路这两天都在写Paint Canvas 昨天前天都写的比较基础的一些只是和一些简单的Demo演示,那今天就写一个"大气磅礴的"(之前几篇没看的可以看 ...

C#窗口实现最小化到系统托盘

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...

IIS6.0中布署MVC站点

服务器环境要求: Windows 2003 server + IIS6.0 1.必须安装.net framework 4.0, MVC 2.最好能安装.net framework 的sp1, 我们服务 ...

MySQL导入文件报错并且乱码

实施从客户那里导出数据库给我,我在本机用sqlyog 导入时出现乱码并报错.报错内容为no selected database.但是我数据库确实选择了. 最后问实施的哥们,他说他用sqlyog导出的时 ...

PowerDesigner建模后导出sql脚本，再导入mysql中

利用powerdesigner设计的数据库表结构. 这时,导出的.sql脚本需要是utf-8字符集格式的.否则的话,导入数据的时候会报错.(特殊需求的话,就根据自身的数据库设计需要来选择字符集) 在这 ...

变量引用（输入两个整数，将它们从小到大输出）

在C++中变量的引用就是变量的别名,引用又称别名. 格式: 类型&引用名＝已定义的变量名注意: 1 引用不产生新的内存空间 2 引用不可重新赋值 3 在定义事一定要赋初值,如果在下面赋值 ...

微信企业号开发php版1-接口验证

普通模式类似公众号的编辑模式,很简单不再介绍,回调模式类似开发模式,略有不同. 下载模板http://qydev.weixin.qq.com/php.zip 接口文件为sample.php进行如下修改 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.