pandas基础(3)_数据处理

1:删除重复数据

使用duplicate()函数检测重复的行,返回元素为bool类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为true

>>> df =DataFrame(np.random.randint(0,150,size=(6,3)),columns=[‘Chinese‘,‘maths‘,‘Chinese‘],index=[‘zhangsan‘,‘lisi‘,‘wangwu‘,‘lisi‘,‘xiaowu‘,‘zhangsan‘])

>>> df

Chinese  maths  Chinese

zhangsan       17     58       70

lisi           88     20      137

wangwu        130     29       57

lisi           71     20       65

xiaowu        133     60        6

zhangsan       96     48       60

>>> df.duplicated()

zhangsan    False

lisi        False

wangwu      False

lisi        False

xiaowu      False

zhangsan    False

dtype: bool

>>> df =DataFrame(np.random.randint(0,2,size=(6,2)),columns=[‘Chinese‘,‘maths‘],index=[‘zhangsan‘,‘lisi‘,‘wangwu‘,‘lisi‘,‘xiaowu‘,‘zhangsan‘])

>>> df

Chinese  maths

zhangsan        1      1

lisi            1      0

wangwu          0      0

lisi            1      0

xiaowu          1      1

zhangsan        0      0

>>> df.duplicated ()

zhangsan    False

lisi        False

wangwu      False

lisi         True

xiaowu       True

zhangsan     True

dtype: bool

>>> #如果出现的数据一样,则会返回true

>>> #调用drop_duplicates()可以删除重复的数据

>>> df.drop_duplicates ()

Chinese  maths

zhangsan        1      1

lisi            1      0

wangwu          0      0

>>> #删除的是行

>>> #rename()函数替换索引

>>> #map():新建一列

>>> #replace()替换元素

2:异常值检测和过滤

>>> #使用describe()函数查看每一列的描述统计量

>>> df =DataFrame(np.random.randint(0,150,size=(6,2)),columns=[‘Chinese‘,‘maths‘],index=[list(‘ABCDEF‘)])

>>> df

Chinese  maths

A      119     25

B       28     33

C       10    134

D       44    121

E       44    119

F       91     46

>>> df.describe ()

Chinese       maths

count    6.000000    6.000000

mean    56.000000   79.666667#平均值

std     40.943864   50.014665

min     10.000000   25.000000

25%     32.000000   36.250000

50%     44.000000   82.500000

75%     79.250000  120.500000

max    119.000000  134.000000

>>> #std是标准方差

>>> df.std ()

Chinese    40.943864

maths      50.014665

dtype: float64

>>> df.std(axis=1)

A    66.468037

B     3.535534

C    87.681241

D    54.447222

E    53.033009

F    31.819805

dtype: float64

>>> #每个人的标准差

>>> np.abs(df)>df.std()*2

Chinese  maths

A     True  False

B    False  False

C    False   True

D    False   True

E    False   True

F     True  False

>>> #当某个方差大于标准方差的2倍时认为这两个数特殊,返回true,这时筛选出来

>>> df.any(axis=1)

A    True

B    True

C    True

D    True

E    True

F    True

dtype: bool

>>> df2=np.abs(df)>df.std()*2

>>> df3=df2.any(axis=1)

>>> df[df3]

Chinese  maths

A      119     25

C       10    134

D       44    121

E       44    119

F       91     46

>>> df2=np.abs(df)>df.std()*2

>>> df2

Chinese  maths

A     True  False

B    False  False

C    False   True

D    False   True

E    False   True

F     True  False

>>> df2.any()

Chinese    True

maths      True

dtype: bool

>>> df2.all()

Chinese    False

maths      False

dtype: bool

>>> df3=df2.any(axis=1)

>>> df3

A     True

B    False

C     True

D     True

E     True

F     True

dtype: bool

>>> df[df3]

Chinese  maths

A      119     25

C       10    134

D       44    121

E       44    119

F       91     46

3:随机排序

>>> x=np.random.permutation (6)

>>> x

array([4, 5, 1, 0, 3, 2])

>>> df.take(x)

Chinese  maths

E       44    119

F       91     46

B       28     33

A      119     25

D       44    121

C       10    134

>>> #使用take(函数排序,可以借助np.random.pemutation()函数随机排序,可以用来随机抽样

4:数据聚合

>>> #通常是每一个数组生成一个具体的值

>>> #1分组 2用函数处理  3合并

>>> #核心函数groupby()

>>> df = DataFrame({‘item‘:[‘apple‘,‘banana‘,‘orange‘,‘banana‘,‘orange‘,‘apple‘],‘price‘:[4,3,3,2.5,4,2],‘color‘:[‘red‘,‘yellow‘,‘yellow‘,‘green‘,‘green‘,‘green‘]})

>>> df

color    item  price

0     red   apple    4.0

1  yellow  banana    3.0

2  yellow  orange    3.0

3   green  banana    2.5

4   green  orange    4.0

5   green   apple    2.0

>>> df.groupby(‘item‘)

<pandas.core.groupby.DataFrameGroupBy object at 0x000000000E8EE240>

>>> g=df.groupby(‘item‘)

>>> g

<pandas.core.groupby.DataFrameGroupBy object at 0x000000000E76A828>

>>> g.groups

{‘orange‘: Int64Index([2, 4], dtype=‘int64‘), ‘apple‘: Int64Index([0, 5], dtype=‘int64‘), ‘banana‘: Int64Index([1, 3], dtype=‘int64‘)}

>>> #分组

>>> g[‘price‘].mean ()

item

apple     3.00

banana    2.75

orange    3.50

Name: price, dtype: float64

>>> m=g[‘price‘].mean ()

>>> type(m)

<class ‘pandas.core.series.Series‘>

>>> df_mean=DataFrame(m)

>>> df_mean

price

item

apple    3.00

banana   2.75

orange   3.50

>>> pd.merge(df,df_mean,left_on=‘item‘,right_index=True)

color    item  price_x  price_y

0     red   apple      4.0     3.00

5   green   apple      2.0     3.00

1  yellow  banana      3.0     2.75

3   green  banana      2.5     2.75

2  yellow  orange      3.0     3.50

4   green  orange      4.0     3.50

>>> #以多个属性进行分组

>>> df.groupby([‘color‘,‘item‘]).sum()

price

color  item

green  apple     2.0

banana    2.5

orange    4.0

red      apple     4.0

yellow  banana    3.0

orange    3.0

>>> #最终变成了多重索引结构

原文地址:https://www.cnblogs.com/henuliulei/p/9368350.html

时间: 2024-10-09 19:24:57

pandas基础(3)_数据处理的相关文章

Pandas基础学习与Spark Python初探

摘要:pandas是一个强大的Python数据分析工具包,pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域.在Spark中,python程序可以方便修改,省去java和scala等的打包环节,如果需要导出文件,可以将数据转为pandas再保存到csv,excel等. 1.Pandas是什么? pandas是一个强大的Python数据分析工具包,是一个提供快速,灵活和表达性数据结构的python包,旨在使

python基础教程_学习笔记23:图形用户界面

图形用户界面 丰富的平台 在编写Python GUI程序前,需要决定使用哪个GUI平台. 简单来说,平台是图形组件的一个特定集合,可以通过叫做GUI工具包的给定Python模块进行访问. 工具包 描述 Tkinter 使用Tk平台.很容易得到.半标准. wxpython 基于wxWindows.跨平台越来越流行. PythonWin 只能在Windows上使用.使用了本机的Windows GUI功能. JavaSwing 只能用于Jython.使用本机的Java GUI. PyGTK 使用GTK

python基础教程_学习笔记3:元组

元组 元组不能修改:(可能你已经注意到了:字符串也不能修改.) 创建元组的语法很简单:如果用逗号分隔了一些值,那么你就自动创建了元组. >>> 1,3,'ab' (1, 3, 'ab') 元组也是(大部分时候是)通过圆括号括起来的. >>> (1,3,'13') (1, 3, '13') 空元组可以用没有内容的两个圆括号来表示. 如何实现包括一个值的元组呢? >>> (5) 5 >>> ('ab') 'ab' >>>

前端工程师基础培训_问答(139邮箱)

一.问答题: (1)139邮箱资源服务器与缓存相关的响应首部是怎么配置的? (2)登录139邮箱web2.3,在浏览器有缓存的情况下,刷新页面,浏览器会不会重新发送请求获取静态资源?如果会,请列出与缓存相关的请求首部以及响应状态码:如果不会,请说明原因. (3)请指出Cache-Control与Expires的区别 (4)新功能上线后,如何清空浏览器的缓存,让用户获取最新的资源文件? 问题1.问题2 可用Fiddler抓包然后截图说明. 二.编程题: 请写一个页面,并封装相应的JS代码,完成13

python基础教程_学习笔记9:抽象

抽象 懒惰即美德. 抽象和结构 抽象可以节省大量工作,实际上它的作用还要更大,它是使得计算机程序可以让人读懂的关键. 创建函数 函数可以调用(可能包含参数,也就是放在圆括号中的值),它执行某种行为并且返回一个值.一般来说,内建的callable函数可以用来判断函数是否可调用: >>> import math >>> y=1 >>> x=math.sqrt >>> callable(x) True >>> callab

python基础教程_学习笔记10:异常

异常 什么是异常 Python用异常对象来表示异常情况.遇到错误后,会引发异常.如果异常对象并未被处理或捕捉,程序就会用所谓的回溯(Traceback,一种错误信息)终止执行: >>> 1/0 Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> 1/0 ZeroDivisionError: integer division or modulo by

SEO基础知识_绝密教程

<p align="center"> </p> <p>   </p> <p align="center"> 第一次接触SEO,请阅读本基础指南入门,也可以注册论坛:<a  1-1.html" target="_blank"><span style="color:black;">从一句话入门</span><span s

python基础教程_学习笔记6:字典

字典 映射(mapping),一种可通过名字引用值得数据结构. 字典是python中唯一内建的映射类型. 字典中的值没有特殊的顺序,但都存储在一个特定的键(key)里.键可以是数字.字符串甚至是元组. 字典的使用 某些情况下,字典比列表更加适用,比如: 表征游戏棋盘的状态,每个键都是由坐标值组成的元组: 存储文件修改数,用文件名作为键: 数字电话/地址簿: 假如有一个人名列表如下: >>>names=['Alice','Beth','Cecil','Dee-Dee','Earl'] 如果

python基础教程_学习笔记5:字符串

字符串 基本字符串操作 字符串也是序列,因此序列的基本操作(索引.分片.连接.乘法.长度.求最大值和最小值.成员资格)对字符串同样适用: 索引 >>> 'a_string'[0] 'a' 长度 >>> len('a_string') 8 求最大值 >>> max('a_string') 't' 求最小值 >>> min('a_string') '_' 乘法 >>> 'a_string'*2 'a_stringa_st