Pandas中数据的处理

有两种丢失数据

——None

——np.nan(NaN)

None是python自带的，其类型为python object。因此，None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引，肯定可以修改

df[column][index] --------->列是属性，肯定可以修改

df.loc[index][column] ----->从df中取出了样本，对取出来的数据进行了修改，原数据没变

现获取列，在获取行

如：df["python"][3] = np.nan

先获取行，再获取列

df.loc[3]["python"] = np.nan

先获取行，是将样本数据取出来，在内存中的内存地址就不一样了，修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll()：判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

（1）判断函数Isnull()和Notnull()

查找空数据

如：cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如：cond = df.notnull().all(axis=1)

df[cond]

（2）过滤函数Dropna()

如：df.dropna()，删除df表中的含有空数据的样本

可以选则过滤的是行还是列（默认过滤行）

也可以选择过滤的方式how=“all”

（3）数据填充fillna()

Fillna()属性

[‘value=None‘, ‘method=None‘, ‘axis=None‘, ‘inplace=False‘, ‘limit=None‘, ‘downcast=None‘, ‘**kwargs‘]

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x))

对于空数据，一般进行填充时填充该列的平均值、中位数、众数进行填充。

对于和是用什么数据进行填充还得根据实际情况来决定

正态分布使用平均值和中位数差别不大。

**计算平均数的用mean（）

如：value=df.mean()

df.fillna(value)

**计算中位数用：median()

如：value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1) #限制填充的行数，默认从第一行开始

**统计众数：np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=‘,‘,index = False)

#存成csv格式，csv就是txt格式，用逗号进行分割，index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如：pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

有两种丢失数据

——None

——np.nan(NaN)

None是python自带的，其类型为python object。因此，None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引，肯定可以修改

df[column][index] --------->列是属性，肯定可以修改

df.loc[index][column] ----->从df中取出了样本，对取出来的数据进行了修改，原数据没变

现获取列，在获取行

如：df["python"][3] = np.nan

先获取行，再获取列

df.loc[3]["python"] = np.nan

先获取行，是将样本数据取出来，在内存中的内存地址就不一样了，修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll()：判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

（1）判断函数Isnull()和Notnull()

查找空数据

如：cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如：cond = df.notnull().all(axis=1)

df[cond]

（2）过滤函数Dropna()

如：df.dropna()，删除df表中的含有空数据的样本

可以选则过滤的是行还是列（默认过滤行）

也可以选择过滤的方式how=“all”

（3）数据填充fillna()

Fillna()属性

[‘value=None‘, ‘method=None‘, ‘axis=None‘, ‘inplace=False‘, ‘limit=None‘, ‘downcast=None‘, ‘**kwargs‘]

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x))

对于空数据，一般进行填充时填充该列的平均值、中位数、众数进行填充。

对于和是用什么数据进行填充还得根据实际情况来决定

正态分布使用平均值和中位数差别不大。

**计算平均数的用mean（）

如：value=df.mean()

df.fillna(value)

**计算中位数用：median()

如：value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1) #限制填充的行数，默认从第一行开始

**统计众数：np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=‘,‘,index = False)

#存成csv格式，csv就是txt格式，用逗号进行分割，index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如：pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

原文地址：https://www.cnblogs.com/kuangkuangduangduang/p/10257167.html

时间： 2024-10-09 10:45:33

Pandas中数据的处理的相关文章

Pandas中DataFrame数据合并、连接（concat、merge、join）之merge

二.merge:通过键拼接列类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来. 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面. merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=Tr

pandas中选取某行为缺失值的数据，并返回

1.df.dropna() 可以返回去掉NaN的df结果集. 2.pandas中dataframe取差集: df=pd.DataFrame({"name":[1,2,3,np.NaN,8],"value":[3,4,np.NaN,9,0]}) drop_na_df=df.dropna() na_symbols_df=pd.DataFrame(list(set(df["name"])^set(drop_na_df["name"]

python 值比较判断，np.nan is np.nan 却 np.nan != np.nan ,pandas 单个数据框值判断nan

pandas中DataFrame,Series 都有 isnull()方法,而数据框却没有,用了就会报错:AttributeError: 'float' object has no attribute 'isnull' 怎么判断单个框是否为 np.nan Python常规的判断,==,和is, 这对None是有效的 None is NoneOut[49]: True None == NoneOut[50]: True 而对,np.nan,只能用is da1pd.ix[6000996,u'团队']

Pandas中DateFrame修改列名

Pandas中DateFrame修改列名在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下: >>>import pandas as pd >>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}) >>> a A B C 0 1 4 7 1 2 5 8 2 3 6 9 方法一:暴力方法 >>>a.columns = [

pandas中的分组技术

目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2.2 transform 2.3 apply 3 利用groupby技术多进程处理DataFrame 我们在这里要讲一个很常用的技术, 就是所谓的分组技术, 这个在数据库中是非常常用的, 要去求某些分组的统计量, 那么我们需要知道在pandas里面, 这些分组技术是怎么实现的. 分组操作我们

pandas中DataFrame

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

Pandas DataFrame 数据选取和过滤

This would allow chaining operations like: pd.read_csv('imdb.txt') .sort(columns='year') .filter(lambda x: x['year']>1990) # <---this is missing in Pandas .to_csv('filtered.csv') For current alternatives see: http://stackoverflow.com/questions/11869

Python，使用pandas保存数据为csv格式的文件

使用pandas对数据进行保存时,可以有两种形式进行保存一.对于数据量不是很大的文件,可以放到列表中,进行一次性存储. 二.对于大量的数据,可以考虑一边生成,一边存储,可以避免开辟大量内存空间,去往列表中存储数据. 本人才疏学浅,只懂一些表面的东西,如有错误,望请指正! 下面通过代码进行说明 1 import pandas as pd 2 3 4 class SaveCsv: 5 6 def __init__(self): 7 self.clist = [[1,2,3], [4,5,6], [

python数据分析pandas中的DataFrame数据清洗

pandas中的DataFrame中的空数据处理方法: 方法一:直接删除 1.查看行或列是否有空格(以下的df为DataFrame类型,axis=0,代表列,axis=1代表行,以下的返回值都是行或列索引加上布尔值)• isnull方法 • 查看行:df.isnull().any(axis=1) • 查看列:df.isnull().any(axis=0)• notnull方法:• 查看行:df.notnull().all(axis=1)• 查看列:df.notnull().all(axis=0