pandas DataFrame apply()函数(1)

之前已经写过pandas DataFrame applymap()函数

还有pandas数组(pandas Series)-(5)apply方法自定义函数

pandas DataFrame 的 applymap() 函数和pandas Series 的 apply() 方法,都是对整个对象上个各个值进行单独处理,返回一个新的对象.

而pandas DataFrame 的  apply() 函数,虽然也是作用于DataFrame的每个值,但是接受的参数不是各个值本身,而是DataFrame里各行(或列),返回一个新的行(列):

有如下一组数据: 记录了10个学生在两次考试的成绩:

grades_df = pd.DataFrame(
    data={‘exam1‘: [43, 81, 78, 75, 89, 70, 91, 65, 98, 87],
          ‘exam2‘: [24, 63, 56, 56, 67, 51, 79, 46, 72, 60]},
    index=[‘Andre‘, ‘Barry‘, ‘Chris‘, ‘Dan‘, ‘Emilio‘,
           ‘Fred‘, ‘Greta‘, ‘Humbert‘, ‘Ivan‘, ‘James‘]
)

要求把学生的成绩转换成A,B,C,D,E,五个等级,转换规则如下:

考分前 20% 的成绩得到A

20% - 50% 的得到B

50% - 80% 的得到C

80% - 90% 的得到D

90% - 100% 的得到E

首先,可以使用 .qcut() 方法来写一个按照区间转换数据值的函数: pandas的qcut()方法

def convert_grades_curve(exam_grades):
    return pd.qcut(exam_grades, [0, 0.1, 0.2, 0.5, 0.8, 1], labels=[‘E‘, ‘D‘, ‘C‘, ‘B‘, ‘A‘])

然后对整个DataFrame应用这个函数

print grades_df.apply(convert_grades_curve)
        exam1 exam2
Andre       F     F
Barry       B     B
Chris       C     C
Dan         C     C
Emilio      B     B
Fred        C     C
Greta       A     A
Humbert     D     D
Ivan        A     A
James       B     B

可见,DataFrame的apply()方法默认作用于DataFrame的各列.

如果想作用于行,可以设置参数axis

DataFrame.apply(func,axis=0)

原文地址:https://www.cnblogs.com/liulangmao/p/9342806.html

时间: 2024-10-25 21:57:44

pandas DataFrame apply()函数(1)的相关文章

pandas DataFrame.shift()函数

pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame数据: import pandas as pd data1 = pd.DataFrame({ 'a': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'b': [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] }) print data1 a b 0 0 9 1 1 8

pandas DataFrame applymap()函数

pandas DataFrame的 applymap() 函数可以对DataFrame里的每个值进行处理,然后返回一个新的DataFrame: import pandas as pd df = pd.DataFrame({ 'a': [1, 2, 3], 'b': [10, 20, 30], 'c': [5, 10, 15] }) def add_one(x): return x + 1 print df.applymap(add_one) a b c 0 2 11 6 1 3 21 11 2

python pandas dataframe 去重函数

今天笔者想对pandas中的行进行去重操作,找了好久,才找打相关的函数 先看一个小例子 <span style="font-size:18px;">from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() print IsDuplicated print type(IsDuplicated) da

pandas.DataFrame学习系列2——函数方法(1)

DataFrame类具有很多方法,下面做用法的介绍和举例. pandas.DataFrame学习系列2--函数方法(1) 1.abs(),返回DataFrame每个数值的绝对值,前提是所有元素均为数值型 1 import pandas as pd 2 import numpy as np 3 4 df=pd.read_excel('南京银行.xlsx',index_col='Date') 5 df1=df[:5] 6 df1.iat[0,1]=-df1.iat[0,1] 7 df1 8 Open

pandas.apply()函数

1.介绍 apply函数是pandas里面所有函数中自由度最高的函数.该函数如下: DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds) 该函数最有用的是第一个参数,这个参数是函数,相当于C/C++的函数指针. 这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据 结构传入给自己实现的函数中,我们在函数中实现对Ser

pandas中agg()函数和apply()函数的区别

如果对自定义top_n的调用采用agg函数的话,那么报出的错误将是 说明了一个问题,使用agg函数调用top_n的话,它在尝试对每一个分组使用top_n进行聚合,但是top_n的作用是排序,不是聚合,所以肯定会报错 所以在这种情况下,只能采用apply函数,而不能采用agg函数,agg函数内调用的函数只能对分组进行聚合使用. 新手入门,个人理解,如有错误,希望谅解

总结(5)--- Numpy和Pandas库常用函数

二.常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包.部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 用于对整组数据进行快速运算的标准数学函数(无需编写循环). 用于读写磁盘数据的工具以及用于操作内存映射文件的工具. 线性代数.随机数生成以及傅里叶变换功能. 用于集成C.C++.Fortran等语言编写的代码的工具. 首先要导入numpy库:import numpy as np A NumPy函数和属性: 类型 类型代码 说明 i

pandas.DataFrame对行和列求和及添加新行和列

pandas.DataFrame对行和列求和及添加新行和列 导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFrame(np.random.randn(4, 5), columns=['A', 'B', 'C', 'D', 'E']) DataFrame数据预览: A B C D E 0 0.673092 0.230338 -0.171681 0.31

pandas的apply操作

pandas的apply操作类似于Scala的udf一样方便,假设存在如下dataframe: id_part pred pred_class v_id 0 d [0.722817, 0.650064] cat,dog d1 1 5 [0.119208, 0.215449] other_label,other_label d2 需要把 v_id=d1 中,pred 与 pred_class 一一对应,需要将 pred 大于0.5的pred_class取出来作为新的一列,如果小于0.5则不取出来: