Python Pandas库的学习(三)

今天我们来继续讲解Python中的Pandas库的基本用法

那么我们如何使用pandas对数据进行排序操作呢?

food.sort_values("Sodium_(mg)",inplace= True)
print(food["Sodium_(mg)"])
food.sort_values("Sodium_(mg)",inplace=True,ascending= False)
print(food["Sodium_(mg)"])

我们对food,进行sort_values方法,会自动帮我们排序,第一个参数"Sodium_(mg)"是我们数据中的列名

意思是说,你要对哪一列数据进行排序,inplace 参数的意思是,你需要生成一个新的数据,还是在原来的基础上进行,可以通过该参数指定

而sort_values排序的时候,就默认从小到大进行排序。

那么我们想做一个从大到小的排序如何做呢?

ascending这个参数,是指定一个排序升降序。在这里指定,默认该参数为True,也就是从小到大

那么我们在上面的代码中可以看到,ascending参数设置为Flase以后,即是从大到小

下面我们讲个点单的例子,泰坦尼克号小案例

import pandas as pd
import numpy as np
titanic_survival = pd.read_csv("titanic_train.csv")
titanic_survival.head()

我现在有一下一些数据,每个值都代表不同的含义,实际是一个船人员信息表,有价格,有年龄,有名字,有座位编号,等等一些数据

下面我们将年龄这一列进行数据处理,看看能得到什么结果,我们先查看了一下,前十个人的年龄如下

发现在5号人,的年龄为NAN,也就是说,这个数据为空,或者数据丢失。我们来对这个缺失值进处理

我们通过isnull方法,对数据进行判断,判断值是否为空。可以看到为True的说明数据丢失了

然后我们将这个为空的数据作为索引,可以找到全部数据中,数据丢失的值

那我们现在统计一下,有多少个数据丢失了,可以用len方法。统计数据为空的值,为177就可以得到177个数据为空的值

我们得到了缺失值后,要对缺失值进行处理

那么我先对数据没有做缺失值处理的情况下,进行一个求平均值的操作

我们可以看到,算出来的值是nan,说明有问题!所以我们不能把带有缺失值得也计算在里面

接下来我们对数据进行处理

一个基本的想法是这样的,就是说,当前数据中,有值的,我们就拿出来进行平均计算,没有值的,就不取出来进行运算

通过这样的计算,我们可以得到,平均年龄为29.6岁

这种方法可能有些麻烦,那么Pandas中有没有什么好的方法可以直接帮我们处理呢? 答案是有的

我们用这样一个简单的方法,一步就可以帮我们取出年龄的平均值。

那我们继续说些难一点的。我们在数据中,分了船舱有1, 2 ,3个等级,我们想计算一下,每个等级下的平均价格是多少

如何计算呢?

这段代码的意思是,我先用for循环,在数据中找到,哪些人是一等舱的人,哪些人是二等舱的人,哪些人是三等舱的人

我们先讲这些人的数据拿到手,拿到之后,我们进行列的定位,定位到价格这列,然后进行平均值,这样就可以得到一个平均价格

分别为以上三个,但是这种做法很麻烦,那么pandas中有没有一个更简单的方法帮我们处理数据呢?看下面的代码

我们有个需求,想算一下,3个舱位每个舱位的平均获救人数的值

可以看到我们在pivot_table中,有三个参数,第一个参数为index,就是说我们要对哪列数据进行统计

values则是说,你要在统计参数一的基础上和哪个数据有关系,作为统计。

第三个参数是aggfunc,就是说你要统计前面两个参数的什么值,我们这边统计平均值。既可以获得以上平均数据

那么我们在计算一下,每个舱位的平均年龄是多少

我们可以直接按照这种方式进行计算,既可以得到每个舱的平均年龄,这里可以看到我们没有添加第三个参数因为如果不加参数3,那么系统会默认帮我们取平均值

那我们又有了新的需求。我们现在想看看。一个量之间,与其他量的关系

我们将index设置为登船地点,那么values是船票的价格,和获救与否,最后一个参数是计算总值。

这里我们想得到的数据就是,分别在C、Q、S这三个码头登船的人的获救总数

这个数据我们可以看到,C码头卖出了1万多块的票价,获救人数是93人。以此类推

那么我们先继续看

因为数据中有些缺失值,那么我们想把这些缺失值都丢掉应该怎么做呢?

dropna的意思就是说,丢弃当前的缺失值。我们 想去掉Age Sex中有缺失值的数据,需要将这两列数据dropna方法中即可

我们继续

那么我想对数据,定位到具体的某个值,我们怎么办呢?

我们可以看到,我们想找第83个样本的年龄,那么我们只需要在参数中添加样本编号,以及需要取到的数据对应的列名。

今天就先讲到这里,感谢大家的阅读。谢谢!!

更多好文章:https://www.yuanrenxue.com/

原文地址:https://www.cnblogs.com/ws17345067708/p/10833266.html

时间: 2024-11-07 08:14:11

Python Pandas库的学习(三)的相关文章

python pandas库学习

两种数据结构Series和DataFrame. Series Series与python中的列表一样,数据和索引值. 这里我们创建了一个Series对象.Series对象的数据值和索引: 列表的索引是从0开始的,Series默认情况下和列表类似从0开始索引.但是也可以自定义索引: 索引可以重定义: 根据索引操作元素: Series也可是使用字典的形式: Series自动对齐:可以根据原来的索引找出对应值,没有则用NaN 判断值是否为空: Series运算操作: 大小 加减乘除 DataFrame

python标准库-random学习

参考资料:Python 2.7.7 documentation 参考工具:http://translate.google.cn/ random模块学习 一.Bookkeeping functions(几乎没看懂)     random.seed([x]) Initialize the basic random number generator     random.getstate() Return an object capturing the current internal state o

Python asyncio库的学习和使用

因为要找工作,把之前自己搞的爬虫整理一下,没有项目经验真蛋疼,只能做这种水的不行的东西...T  T,希望找工作能有好结果. 之前爬虫使用的是requests+多线程/多进程,后来随着前几天的深入了解,才发现,对于爬虫来说,真正的瓶颈并不是CPU的处理速度,而是对于网页抓取时候的往返时间,因为如果采用requests+多线程/多进程,他本身是阻塞式的编程,所以时间都花费在了等待网页结果的返回和对爬取到的数据的写入上面.而如果采用非阻塞编程,那么就没有这个困扰.这边首先要理解一下阻塞和非阻塞的区别

python标准库-datetime学习

参考博客:http://www.cnblogs.com/lhj588/archive/2012/04/23/2466653.htmlhttp://www.cnblogs.com/fclbky/articles/4098204.html参考资料:Python 2.7.7 documentation参考工具:http://translate.google.cn/ Available Types:class datetime.date      理想化日期class datetime.time    

excel vba和python pandas库在处理excel,数据循环嵌套查询方面的比较。

最经朋友成立了一个运营兼职的公司,然而需要对于一些兼职人员的工资进行发放,但是由于一次兼职的工资在40~60之间,所以公司采取的原则是大于200以上进行发放,这个规则也就相当于滴滴司机,提现需要大于200以上,那么问题就来了,为了更好的让众多的兼职人员能够,清晰的了解到自己在什么时间段日子里面赚到了多少钱,这时候就引申出了一个问题,我们需要对产生工资的时间段进行查找,这时候我想到了想到了运用 vba和xlrd库对数据进行处理和比较让他解决这个问题,最后完美完成任务,加深了兄弟之间的感情. 下图就

Python第三方库Requests学习

1.安装 1 git clone git://github.com/kennethreitz/requests.git 2 cd requests 3 python setup.py install 2.上点威力 (GET) 1 >>> import requests 2 >>> url = 'http://dict.baidu.com/s' 3 >>> payload = {'wd':'python'} 4 >>> r = requ

python collections 库的学习

import collections 注意 counter用的时候要大写, Counter是说统计一个List中的对象出现的次数,然后以Counter的形式返回 例如http://stackoverflow.com/questions/3172173/most-efficient-way-to-calculate-frequency-of-values-in-a-python-list >>> from collections import Counter >>> L=

python pandas库的基本内容

pandas主要为数据预处理 DataFrame import pandas food_info = pandas.read_csv("路径")  #绝对路径和相对路径都可以 type(food_info)为DataFrame food_info.dtype_  #文件中数据的类型 food_info.head()  读出的数据显示前五条  food_info.head(3)  读出的数据显示前3行    food_info.tail(4)显示末尾4行 food_info.column

[学习笔记] Python标准库的学习准备 [转]

Python标准库是Python强大的动力所在,我们已经在前文中有所介绍.由于标准库所涉及的应用很广,所以需要学习一定的背景知识. 硬件原理 这一部份需要了解内存,CPU,磁盘存储以及IO的功能和性能,了解计算机工作的流程,了解指令的概念.这些内容基础而重要. Python标准库的一部份是为了提高系统的性能(比如mmap),所以有必要了解基本的计算机各个组成部分的性能. 操作系统 在了解操作系统时,下面是重点: 1) 操作系统的进程管理,比如什么是UID, PID, daemon 2) 进程之间