Python pandas 获取Excel重复记录

pip install pandas
pip install xlrd

大量记录的时候，用EXCEL排序处理比较费劲，EXCEL程序动不动就无响应了，用pands完美解决。

# We will use data structures and data analysis tools provided in Pandas library
import pandas as pd

# Import retail sales data from an Excel Workbook into a data frame
# path = ‘/Documents/analysis/python/examples/2015sales.xlsx‘
path = ‘F:/python/an.xlsx‘
xlsx = pd.ExcelFile(path)
df = pd.read_excel(xlsx, ‘Sheet1‘)

# Let‘s add a new boolean column to our dataframe that will identify a duplicated order line item (False=Not a duplicate; True=Duplicate)
df[‘is_duplicated‘] = df.duplicated([‘ip‘])

# We can sum on a boolean column to get a count of duplicate order line items
# df[‘is_duplicated‘].sum()

# Get the records of duplicated, If you need non-dup just use False instead
df_dup = df.loc[df[‘is_duplicated‘] == True]

# Finally let‘s save our cleaned up data to a csv file
df_dup.to_csv(‘dup.csv‘, encoding=‘utf-8‘)

ref:https://33sticks.com/python-for-business-identifying-duplicate-data/

原文地址：https://www.cnblogs.com/v5captain/p/8361581.html

时间： 2024-11-25 20:42:03

Python pandas 获取Excel重复记录的相关文章

python pandas 获取列数据的几种方法及书写形式比较

pandas获取列数据位常用功能,但在写法上还有些要注意的地方,在这里总结一下: ''' author: zilu.tang 2015-12-31 ''' import pandas as pd data1 = pd.DataFrame(...) #任意初始化一个列数为3的DataFrame data1.columns=['a', 'b', 'c'] 1. data1['b'] #这里取到第2列(即b列)的值 2. data1.b #效果同1,取第2列(即b列) #这里b为列名称,但必须是连续字

python pandas读写excel

from openpyxl import load_workbook import pandas as pd data = pd.read_excel('test1.xlsx', sheetname=0) # col_data = list(data.ix[:, 5]) # 获取除表头外开始的第五列数据 row_data = list(data.ix[5,:]) # 获取除表头外开始的第五行数据 writer = pd.ExcelWriter( 'test2.xlsx', engine='o

Python利用pandas处理Excel数据的应用

最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用pandas就会非常高效,基本上3行代码可以搞定你20行代码的操作!该教程仅仅限于结合柠檬班的全栈自动化测试课程来讲解下pandas在项目中的应用,这仅仅只是冰山一角,希望大家可以踊跃的去尝试和探索! 一.安装环境: 1:pandas依赖处理Excel的xlrd模块,所以我们需要提前安装这个,安装命令

python利用Pandas处理excel

#利用pandas处理excel文件import pandas as pddf=pd.read_excel('D:\\python.xlsx',sheet_name=0,header=None)#默认是忽略表头的,但是为了让下面的代码读取表头,设置header=None#print(df.head(1))#打印excel的前面几行,默认的是五行,这里修改数字打印前面两行a=df.values#显示excel的所有值.按照行读取.返回一个列表.列表的元素是excel每一行的列表print(a)pr

记一个python+sqlalchemy+tornado的一个高并发下，产生重复记录的bug

场景:在用户通过支付通道支付完成返回时,发现我收到的处理数据记录中有两条同样的数据记录, 也就是同一笔钱,我数据库中记为了两条一样的记录. tornado端代码 from tornado import gen from tornado.concurrent import run_on_executor class processNetPay(BaseHandler): '''处理指定订单,指定支付请求,返回处理结果 ' 返回包含订单信息与用户信息体 ''' @tornado.web.asynch

Python用Pandas读写Excel

Pandas是python的一个数据分析包,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. Pandas提供了大量能使我们快速便捷地处理数据的函数和方法. Pandas官方文档:pandas.pydata.org/pandas-docs… Pandas中文文档:www.pypandas.cn 一.安装包 pandas处理Excel需要xlrd.openpyxl依赖包 pip3 install pandas pip3 install xlrd pip3 install o

python 获取excel数据自动登陆

import xlrdimport timeimport unittestfrom selenium import webdriver class u8819(unittest.TestCase): global loginurl global driverpath loginurl = 'http://www.effevo.com' driverpath = 'D:\\chromedriver.exe' userpath = 'D:\\data.xlsx' #获取data.xlsx中的用户数据

Python pandas 0.19.1 Indexing and Selecting Data文档翻译

最近在写个性化推荐的论文,经常用到Python来处理数据,被pandas和numpy中的数据选取和索引问题绕的比较迷糊,索性把这篇官方文档翻译出来,方便自查和学习,翻译过程中难免很多不到位的地方,但大致能看懂,错误之处欢迎指正~ Python pandas 0.19.1 Indexing and Selecting Data 原文链接 http://pandas.pydata.org/pandas-docs/stable/indexing.html 数据索引和选取 pandas对象中的轴标签信息

MySQL删除重复记录的方法

参考网上的方法,总结了产出重复记录的方法,欢迎交流. 方法1:创建一个新表临时储存数据假设我们有一个存在多个字段的表,表中有部分数据的若干字段重复,此时我们可以使用DISTINCT这个关键字对表数据进行筛选. 1 CREATE [TEMPORARY] TABLE temp LIKE origin_tb; 2 INSERT temp(attr1,attr2,...) SELECT DISTINCT attr1,attr2,... FROM origin_tb; 3 DELETE FROM ori