5.2 基本功能
(1)重新索引 - 方法reindex
方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引。
如,对下面的Series数据按新索引进行重排:
根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN:
利用reindex的method选项,实现插值处理。尤其对于时间序列这样的有序数据,会经常用到该选项。
如,使用 ffill 实现 前向值 填充:
利用DataFrame,reindex修改(行)索引和列。(只传递一个序列时,会重新索引结果的行):
利用columns关键字,对列进行重新索引:
reindex 函数的参数:
(2)丢弃指定轴上的项 - 方法 .drop
丢弃某条轴上的一个或多个项,只要由一个索引数组或列表即可。
drop方法,返回的时一个在指定轴上删除了指定值的对象:
对于Series:
对于DataFrame(可删除任意轴上的索引值):
先创建如下DataFrame例子:
用标签序列调用drop,会从行标签(axis 0)删除值:
通过传递axis=1或axis=‘columns‘可删除列的值:
Ps:如果想就地修改对象,可使用inplace参数(谨慎使用inplace,该参数会彻底删除被删除的数据!):
(3)索引、选取和过滤
Series索引,其索引值可以是整数(单个、多个,或整数切片),也可以是具体的单个、多个index值,也可以是布尔类型条件。
1)创建Series示例:
具体的例子如下:
Ps:利用标签的切片运算与普通的Python切片运算不同,其末端是包含的!
用切片可对Series的相应部分进行设置:
2)DataFrame示例
(4)用loc和iloc进行选取
(5)整数索引
(6)算术运算和数据对齐
(7)在算术方法中填充值
(8)DataFrame和Series之间的运算
(9)函数应用和映射
(10)排序和排名
(11)带有重复标签的轴索引
5.3 汇总和计算描述统计
(1)相关系数和协方差
(2)唯一值、值计数以及成员资格
下期预告:讨论用pandas读取(或加载)和写入数据集的工具。
之后,更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具
原文地址:https://www.cnblogs.com/ElonJiang/p/11632136.html