pandas常用数据清洗方法

数据预处理常用函数

  • df.duplicated() :判断各行是重复,False为非重复值。
  • df.drop_duplicates():删除重复行
  • df.fillna(0):用实数0填充na
  • df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how = "all" 全部是NA才删,"any"只要有NA就删除
  • del df[‘col1‘]:直接删除某列
  • df.drop([]‘col1‘,……],axis=1):删除指定列,也可以删除指定行
  • df.rename(index={‘row1‘:‘A‘},columns ={‘col1‘:‘B‘}):重命名索引名和列名
  • df.replace():替换df值,前后值可以用字典表,{‘1‘:‘A‘,‘2:‘B‘}
  • hr_data[‘col1‘].map(function):Series.map,对指定列进行函数转换
  • pd.merge(df1,df2,on=‘col1‘,how=‘inner‘,sort=True):合并两个df,按照共有的列作内连接(交集),outter为外连接(并集),结果排序。
  • pd.concat([df1,df2]):多个Series堆叠成多行。
  • df1.combine_first(df2):用df2的数据补充df1的缺失值NAN。

数据集介绍

以下各例子均使用如下数据集进行演示。


duplicated()

判断各行是重复,False为非重复值。


drop_duplicates()

删除重复行

通过指定列,删除重复行


fillna(value=0)

对缺失值进行填充 ,用实数0填充na。


df.dropna()

通常情况下,删除行使用参数axis = 0,删除列使用axis = 1。

按列删除缺失值,使用参数axis=1。

how = "all" 全部是NA才删,"any"只要有NA就删除


del df[‘col1‘]

直接删除某列。


df.drop()

  • labels 就是要删除的行列的名字,用列表给定。
  • axis=0 删除行,axis=1 删除列。
  • index 直接指定要删除的行。
  • columns 直接指定要删除的列。

删除指定行


df.rename()

重命名索引名和列名。


df.replace()

替换df值,前后值可以用字典表,{‘1‘:‘A‘,‘2:‘B‘}。


hr_data[‘col1‘].map(function)

Series.map,对指定列进行函数转换。


pd.merge(df1,df2,on=‘col1‘,how=‘inner‘,sort=True)

merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要 应用场景是针对同一个主键存在两张包含不同特征的表,通过该主键的连接,将两张表进行合并。合并之后,两张表的行数没有增加,列数是两张表的列数之和减一。

{!-- PGC_COLUMN --}

  • on=None 指定连接的列名,若两列需要连接的列名不一样,可以通过left_on和right_on 来具体指定
  • how=’inner’,参数指的是左右两个表主键那一列中存在不重合的行时,取结果的方式:inner表示交集,outer 表示并集,left 和right 表示取某一边。


pd.concat([df1,df2])

拼接两个数据集,可在行或者列上合并。

axis=0 是行拼接,拼接之后行数增加,列数也根据join来定,join=’outer’时,列数是两表并集。同理join=’inner’,列数是两表交集。


df1.combine_first(df2)

合并重叠数据,用df2的数据补充df1的缺失值NAN。

原文地址:https://www.cnblogs.com/-wenli/p/12582243.html

时间: 2024-10-12 22:09:02

pandas常用数据清洗方法的相关文章

pandas 常用统计方法

统计方法 pandas 对象有一些统计方法.它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series. 比如 DataFrame.mean(axis=0,skipna=True) 方法,当数据集中存在 NA 值时,这些值会被简单跳过,除非整个切片(行或列)全是 NA,如果不想这样,则可以通过 skipna=False 来禁用此功能: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ETL流程概述及常用实现方法

http://blog.csdn.net/btkuangxp/article/details/48224187 目录(?)[-] 1抽取作业 1手工开发抽取作业时候的常用方法 11当数据源和DW为同一类数据库时 12当数据源和ODS为不同类型数据库时 2更新数据的时间和数量的问题 21实时抽取数据 22批量抽取数据 221常用实现 222根据下载时候对数据的筛选方式可以分为 2转换作业 1数据清洗 2数据转换 3加载作业 4流程控制 5常用商业ETL工具 ETL是英文Extract-Transf

pandas 常用函数整理

pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者DataFrame对象的方法,只列举了部分关键字参数. 1.基础 .values 获取值,返回array对象 .index 获取(行)索引,返回索引对象 Series( index=) 创建Series

NumPy和Pandas常用库

NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数据进行快速运算的标准数学函数(无需编写循环). 用于读写磁盘数据的工具以及用于操作内存映射文件的工具. 线性代数.随机数生成以及傅里叶变换功能. 用于集成C.C++.Fortran等语言编写的代码的工具. 首先要导入numpy库:import numpy as np A NumPy函数和属性: 类型

【转载】使用pandas进行数据清洗

使用pandas进行数据清洗 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据清洗 目录: 数据表中的重复值 duplicated() drop_duplicated() 数据表中的空值/缺失值 isnull()&notnull() dropna() fillna() 数据间的空格 查看数据中的空格 去除数据中的空格 大小写转换 数据中的异常和极端值 replace() 更改数据格式 astype() to_datetime() 数据分组 cut() 数据分列 split()

Python数据分析与挖掘所需的Pandas常用知识

Python数据分析与挖掘所需的Pandas常用知识 前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series类似于Numpy中元素带标签的数组.其中,标签可以是数字或者字符串.一个dataframe是一个二维的表结构.Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签.你可以把它想象成一个series的字典项. Pandas常用知识 一.读取csv文件为dataf

全体快三源码开发Python数据分析与挖掘所需的Pandas常用知识

前言 全体快三源码开发 (http://www.1159880099.com) QQ1159880099 Pandas基于两种数据类型:series与dataframe. 一个series是一个一维的数据类型,其中每一个元素都有一个标签.series类似于Numpy中元素带标签的数组.其中,标签可以是数字或者字符串. 一个dataframe是一个二维的表结构.Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签.你可以把它想象成一个series的字典项.

用pandas进行数据清洗(二)(Data Analysis Pandas Data Munging/Wrangling)

在<用pandas进行数据清洗(一)(Data Analysis Pandas Data Munging/Wrangling)>中,我们介绍了数据清洗经常用到的一些pandas命令. 接下来看看这份数据的具体清洗步骤: Transaction_ID Transaction_Date Product_ID Quantity Unit_Price Total_Price 0 1 2010-08-21 2 1 30 30 1 2 2011-05-26 4 1 40 40 2 3 2011-06-16

VC的常用调试方法

前言 VS是非常强大的IDE,所以掌握VSVC的常用方法,将会使得我们找出问题解决问题事半功倍. 目录 VSVC的常用调试方法 前言 1. Watch窗口查看伪变量 2. 查看指针指向的一序列值 3. 内存泄露查找 4. 调试Release版本 5. 远程调试 6. 函数断点 7. 数据断点. 8. 代码执行时间 9. 格式化数据 10. 格式化内存 Watch窗口查看伪变量 按MSDN的介绍,伪变量就是用来查看特定信息的术语.例如当调用的API失败时,可以用GetLastError获取对应的错