DataFrame 避免链式赋值

在运行以下Python代码时,Pandas抛出SettingWithCopyWarning警告:

row_data = df_pred.loc[key]
row_data[‘col‘] = new_value

df_pred是一个数据框,根据索引从数据框中获取一行,然后对该行的一个字段进行赋值,警告的详细内容如下:

SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

该警告的意思是:在DataFrame的一个切片上的copy上进行赋值操作。出现警告是因为该赋值操作可能不会影响到原始的数据框。

从代码上来理解:row_data 是原始数据框的一个切片(df_loc[key]),该切片可能是原始数据框的一个视图(View),也可能是原始数据框的一个副本(Copy)。如果row_data是原始数据框的一个视图,对row_data进行数据修改不会影响到df_pred。建议使用df_pred.loc[row_indx,col_index] 方式,该方式肯定修改原始数据框。

一,深拷贝和浅拷贝

在使用DataFrame修改数据时,要知道深拷贝和浅拷贝的区别。图例描述了浅拷贝和深拷贝的区别,假设B复制了A,当修改B时,如果A也跟着变了,说明这是浅拷贝;如果A没变,那就是深拷贝。

也就是说,浅拷贝是创建了对象的一个引用,而深拷贝是创建了对象的一个独立的实体。

二,数据的视图和副本

在pandas中,浅拷贝也称作数据的视图(View),深拷贝也称作数据的副本(Copy),Pandas 中的某些操作可以返回数据的视图(View),而某些其他操作将返回数据的副本(Copy)。

SettingWithCopyWarning 警告暗示:赋值操作可能没有按照预期执行,你应该检查结果以确保结果没有出错。

如果你的代码执行的结果符合预期,那么你可以忽略警告,但这并不是良好的编码实践,SettingWithCopyWarning 警告不应该被忽略。在采取下一步行动之前,花点时间了解以下为什么Pandas会抛出这一警告。

三,警告出现的原因

直接抛出结论,警告出现的原因只有一个:

出现警告的原因是链式赋值

当 Pandas 检测到链式赋值(Chained assignment)时会生成警告,链式赋值是指通过使用链式索引来赋值。链式索引(Chaining)是指连续使用多个索引,例如data[1:5][1:3]。

使用链式索引赋值的两种方式:

  • 第一种是显式的,索引是连续的,例如,data.iloc[1][3] = value
  • 第二种是隐式的,例如,先定义 df = data.iloc[1],再使用 df[3] = value 也属于链式赋值

链式赋值可以在一行中进行,也可以跨越多行,只要Pandas检测到链式赋值,Python就会抛出SettingWithCopyWarning警告。

1,显式的链式赋值

举个例子,使用链式索引对bidder列进行赋值:

data[data.bidder == ‘parakeet2004‘][‘bidderrate‘] = 100

生成警告是因为我们把两个索引操作链接在一起,代码中直接使用了两次中括号,所以这种格式比较容易理解。但如果我们使用其他访问方法,例如 .bidderrate.loc[].iloc[].ix[],也是如此,我们的链式操作一个接一个独立执行:

data[data.bidder == ‘parakeet2004‘]
[‘bidderrate‘] = 100

第一次是访问操作(get),返回一个 DataFrame,其包含所有 bidder 等于 ‘parakeet2004‘ 的行。第二个是赋值操作(set),是在这个新的 DataFrame 上运行的,我们压根没有在原始 DataFrame 上运行。

这个解决方案很简单:使用 loc 将链式操作组合到一个操作中,以便 Pandas 可以确保 set 操作是在原始 DataFrame上执行。Pandas 会始终确保下面这样的非链式 set 操作起作用。

data.loc[data.bidder == ‘parakeet2004‘, ‘bidderrate‘] = 100

2,隐式的链式赋值

举个例子,使用原始数据框的一个变量,对变量赋值,这是隐式的链式赋值:

winners = data.loc[data.bid == data.price]
winners.loc[304, ‘bidder‘] = ‘therealname‘

隐式的链式索引可能跨越多行代码发生,也可能在一行代码内发生。因为 winners 是作为 get 操作的输出创建的(data.loc[data.bid == data.price]),它可能是原始 DataFrame 的副本,也可能不是,但除非我们检查,否则我们不能确认。当我们对 winners 进行索引时,我们实际上使用的是链式索引。这意味着当我们尝试修改 winners 时,我们可能也修改了 data

在实际的代码中,这些行可能会跨越很大的距离,因此追踪问题可能会更困难,但情况是与示例类似的。

为了防止这种情况下的警告,解决方案是在创建新 DataFrame 时明确告知 Pandas 这是创建的一个副本,对副本的修改不会影响到原始对象:

winners = data.loc[data.bid == data.price].copy()
winners.loc[304, ‘bidder‘] = ‘therealname‘

敲门就是,学会识别链式索引,不惜一切代价避免使用链式索引。如果要更改原始数据,请使用单一索引赋值操作。如果你想要一个副本,请确保显式调用copy()函数强制让 Pandas 创建副本。

提一个中肯的建议,即使SettingWithCopyWarning警告只在set 时才会发生,但在进行 get 操作时,最好也避免使用链式索引。不仅因为链式操作较慢,而且因为链式索引始终是一个潜在的问题,只要你稍后进行赋值操作,就可能不会影响到原始对象,这可能不是你的预期操作,所以,请不惜一切代价避免使用链式索引。

参考文档:

python学习笔记之Pandas 中 SettingwithCopyWarning 的原理和解决方案

SettingwithCopyWarning: How to Fix This Warning in Pandas

原文地址:https://www.cnblogs.com/ljhdo/p/12036510.html

时间: 2024-11-03 20:54:11

DataFrame 避免链式赋值的相关文章

python链式赋值有哪些注意事项?

在我们在python开发http://www.maiziedu.com/land/python/中, 经常遇到赋值语句, 就像下面的那样: a = 3b = 3 可能你会觉得我又要说什么变量赋值就是引用, 这么简单的知识就不讨论啦, 相信聪明的大家肯定都知道的, 本文和大家分享的是链式赋值相关内容,一起来看看吧,希望对大家学习和使用这部分内容有所帮助. 先科普下什么是 链式赋值 : 链式赋值: 同时对几个变量进行赋值 例如: a = b = c = 3 好了, 现在正式进入正题: >>>

python中表达式赋值与链式赋值的区别

python支持普通赋值,链式赋值,增量赋值,但不支持表达式赋值. 普通赋值:x  =1 增量赋值:x = 1 ; x  += 1 链式赋值---同时对几个变量进行赋值,例子如下 >>> x = 1 >>> x = y = x + 1 >>> x,y (2, 2) 在其它语言,如C语言中,支持表达式赋值,就是说,表达式是有返回值的,例如x = 1;y = (x += 1)),那么x,y的值都是2,在python中,会发生什么情况呢? >>&

pyhton链式赋值在可变类型/不可变类型上的区别以及其本质

关于链式赋值的一些注意点: a=[]b=[]x=y=[]print(a==b) #Trueprint(x==y) #Trueprint(a is b) #Falseprint(x is y) #Truea.append(1)x.append(666)print(a,b,x,y)输出结果为:[1] [] [666] [666] aa=1bb=1cc=dd=1print(aa==bb) #Trueprint(cc==dd) #Trueprint(aa is bb) #Trueprint(cc is

链式赋值为何要返回&

#include<iostream> using namespace std; class A{ public: A(int x_):x(x_){}; A/*&*/ operator =(A& h)/*&*/; //加上后置&就不合法,默认情况他同时支持向左值(&)和右值(&&)赋值 friend ostream& operator << (ostream& out,const A & h); priv

C++中的链式操作

代码编译环境:Windows7 32bits+VS2012. 1.什么是链式操作 链式操作是利用运算符进行的连续运算(操作).它的特点是在一条语句中出现两个或者两个以上相同的操作符,如连续的赋值操作.连续的输入操作.连续的输出操作.连续的相加操作等都是链式操作的样例. 链式操一定涉及到结合律的问题.比如链式操作赋值操作满足右结合律,即a=b=c被解释成a=(b=c).而链式输出操作原则满足左结合律,即cout<<a<<b被解释成(cout<<a)<<b,基本

二叉树的链式存储结构----二叉链表

头文件:head.h #include<string.h> #include<ctype.h> #include<malloc.h> /* malloc()等 */ #include<limits.h> /* INT_MAX等 */ #include<stdio.h> /* EOF(=^Z或F6),NULL */ #include<stdlib.h> /* atoi() */ #include<io.h> /* eof()

面向对象的链式调用

1. 对象的链式调用 function Chain(){ this.n=0;//属性不一定一开始的时候全部都要初始化 this.fn1=function(_obj){//this指向  new Chain()实例化的对象 alert(this.n++);//注意:alert(this.n++)与this.fn1中的this 不一定指向的对象是一样的 return this; } this.fn2=function(){//同上 alert(this.n++);//注意:alert(this.n+

用php实现一个简单的链式操作

最近在读<php核心技术与最佳实践>这本书,书中第一章提到用__call()方法可以实现一个简单的字符串链式操作,比如,下面这个过滤字符串然后再求长度的操作,一般要这么写: strlen(trim($str)); 那么能否实现下面这种写法呢? $str->trim()->strlen(); 下面就来试下. 链式操作,说白了其实就是链式的调用对象的方法.既然要实现字符串的链式操作,那么就要实现一个字符串类,然后对这个类的对象进行调用操作.我对字符串类的期望如下:(1)当我创建对象时,

数据结构:二叉树的链式存储

数据结构:二叉树的链式存储(C语言版) 1.写在前面 二叉树同样有两种存储方式,数组和链式存储,对于数组来说,我们利用二叉树的性质然后利用下标可以方便的找到一个节点的子节点和父节点. 二叉树的性质: 1.二叉树的第i层上至多有2i-1个节点 2.深度为K的二叉树至多有2k-1个节点 3.任何一个二叉树中度数为2的节点的个数必度数为0的节点数目少1. 说明:度数为0,为叶子节点. 4.具有n个节点的完全二叉树的深度为|_Log2N_|+1 5.若完全二叉树中的某节点编号为i,则若有左孩子编号为2i