利用Python进行数据分析 第5章 pandas入门

pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas是基于NumPy数组构建。

pandas常结合数值计算工具NumPy和SciPy、分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用。

5.1 pandas数据结构介绍

pandas的主要数据结构:Series和DataFrame

(1)Series

Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成:

可通过Series的values和index属性获取其数组表示形式和索引对象:

可创建自定义的索引:

1)与普通NumPy数组相比,可通过索引的方式选取Series中的单个或一组值:

2)

(2)DataFrame

(3)索引对象

5.2 基本功能

原文地址:https://www.cnblogs.com/ElonJiang/p/11629073.html

时间: 2024-10-14 22:23:40

利用Python进行数据分析 第5章 pandas入门的相关文章

利用Python进行数据分析 第5章 pandas入门(2)

5.2 基本功能 (1)重新索引 - 方法reindex 方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引. 如,对下面的Series数据按新索引进行重排: 根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN: 利用reindex的method选项,实现插值处理.尤其对于时间序列这样的有序数据,会经常用到该选项. 如,使用 ffill 实现 前向值 填充: 利用DataFrame,reindex修改(行)索引和列.

利用 Python 进行数据分析(九)pandas 汇总统计和计算

pandas 对象拥有一些常用的数学和统计方法.   例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索引: 还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数据里的唯一值: value_counts() 方法用于统计各值出现的频率: isin() 方法用于判断成员资格: 安装步骤已经在首篇随笔里写过了,这里不在赘述.利用 Python 进行数据分析(一

利用 Python 进行数据分析(八)pandas 基本操作(Series 和 DataFrame)

一.reindex() 方法:重新索引 针对 Series   重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 fill_value 参数指定填充值. 例如: fill_value 会让所有的缺失值都填充为同一个值,如果不想这样而是用相邻的元素(左或者右)的值填充,则可以用 method 参数,可选的参数值为 ffill 和 bfill,分别为用前值填充和用后值填充: 针对 DataFrame   重新索引

利用 Python 进行数据分析(七)- pandas 简单介绍(Series和DataFrame)

一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构:Series 和 DataFrame. 二.Series Series 是一个一维数组对象 ,类似于 NumPy 的一维 array.它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组. 将 Python 数组转换成 Series 对象: 将 Python 字典转换成 Serie

利用Python进行数据分析 第7章 数据清洗和准备

学习时间:2019/10/25 周五晚上22点半开始. 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完. 实际反馈:X集中学习1.5小时,学习6页.实际XXX学完,耗时N天,M小时 数据准备工作:加载.清理.转换以及重塑,通常会占用分析师80%的时间或更多!!!学会高效的数据清洗和准备,将绝对提升生产力!本章将讨论处理缺失数据.重复数据.字符串操作和其他分析数据转换的工具.下一章将关注用多种方法合并.重塑数据集. 7.1 处理缺失数据 缺失数据在pa

利用Python进行数据分析 第6章 数据加载、存储与文件格式

学习时间:2019/10/20 周日下午17点开始.共23页,目标3天学完,每天8页,预期1021学完. 6.1 读写文本格式的数据 6.1.1 逐块读取文本文件 6.1.2 将数据写出到文本格式 6.1.3 处理分隔符格式 6.1.4 JSON数据 6.1.5 XML和HTML:Web信息收集 6.1.6 利用lxml.objectify解析XML 6.2 二进制数据格式 6.2.1 使用HDF5格式 6.2.2 读取Microsoft Excel文件 6.3 Web APIs交互 6.4 数

利用python进行数据分析-08-第六章 数据加载、存储与文件格式

1.读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数. 文件导入,使用read_csv将数据导入一个DataFrame df= pd.read_csv('B:/test/ch06/ex1.csv') df Out[142]: a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 foo read_table,只不过需要制定分隔符 df = pd.read_table('B:/test/

利用Python进行数据分析 第4章 NumPy基础-数组与向量化计算(2)

2.3 NumPy数组的运算 数组,不需要编写循环即可对数据执行批量运算!NumPy用户称此特性为矢量化(vectorization). (1)大小相等的数组之间的任何算术运算都会将运算应用到元素级 (2)数组与标量的算术运算将标量值传播到各个元素 PS:**在python中表示幂运算,如,2**3表示2的3次方 (3)大小相同的数组之间的比较会生成布尔值数组 (不同大小的数组之间的运算叫广播,本书不需要多广播机制深入理解) 2.4 基本的索引和切片 数组与列表的重要区别在于:数组切片是原始数组

利用 Python 进行数据分析(十二)pandas:数据合并

pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法combine_first()方法:合并重叠数据. pandas.merge()方法:数据库风格的合并 例如,通过merge()方法将两个DataFrame合并: on='name'的意思是将name列当作键: 默认情况下,merge做的是内连接(inner),即键的交集. 其他方式还有左连接(lef