pandas 学习 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)

数据处理的目的是为了数据分析,下面分享常用的数据分析中会用到的函数。

一,分组和聚合

groupby用于对数据分组,分组之后可以直接调用聚合函数求值;agg()函数把分组和调用聚合函数集成到一个函数来实现:

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
DataFrame.agg(self, func, axis=0, *args, **kwargs)

二,窗口

rolling()是指按照窗口滚动求值,expanding()是指依次递增1,计算累加;ewm指的是指数加权滚动平均:

DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
DataFrame.expanding(self, min_periods=1, center=False, axis=0)
DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)

详细信息,可以参考:pandas 学习 第4篇:序列的处理(应用、聚合、转换、映射、分组、滚动、扩展、指数加权移动平均)

三,相关

计算两对列值之间的相关性:

DataFrame.corr(self, method=‘pearson‘, min_periods=1)

method:计算相关性的方法,有效值是 ‘pearson’, ‘kendall’, ‘spearman’ 或 callable

min_periods:每对列必须具有有效结果的最小观察数量,目前只适用于:Pearson 和 Spearman相关性。

四,统计函数

常用的统计函数:

  • min、max:最小值、最大值
  • mode:众数
  • var:方差
  • std:标准差
  • sum:累加和
  • mean:均值
  • mad:绝对值的均值
  • median:中位数
  • quantile:百分位数
  • count:计数
  • cumsum:累加求和
  • cumprod:累积乘积
  • cummin、cummax:累积最小值、累积最大值

参考文档:

pandas DataFrame

原文地址:https://www.cnblogs.com/ljhdo/p/11599177.html

时间: 2024-10-10 09:07:49

pandas 学习 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)的相关文章

pandas 学习 第1篇:pandas基础

pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,包含序列Series和数据框DataFrame两种最主要数据结构. 一,pandas最重要的两种数据类型 数据框(DataFrame)类似于二维的关系表,每列的数据类型是相同的,列与列的数据类型可以不同,也可以相同.数据框的结构是行和列,列有列名,行有行索引,行索引还可以设置标签. 序列(Series)可以认为是二维表中的一列,因此,可以把数据框的一列转换为序列.在pandas中,序列是具有单一类型的一维数组,

pandas 学习 第4篇:序列的处理(应用、聚合、转换、映射、分组、滚动、扩展、指数加权移动平均)

序列内置一些函数,用于循环对序列的元素执行操作. 一,应用函数 对序列的各个原始应用函数: Series.apply(self, func, convert_dtype=True, args=(), **kwds) 参数注释: func:应用的函数,可以是自定义的函数,或NumPy函数 convert_dtype:默认值是True,尝试把func应用的结果转换为更好的数据类型,如果设置为False,把结果转换为dtype=object. args:元组,在序列值之后,传递给func的位置参数(p

Pandas 学习 第2篇:pandas 的 Series

pandas是基于NumPy构建的模块,含有使数据分析更快更简单的操作工具和数据结构,最常用的数据结构是:序列Series和数据框DataFrame. 序列是具有单一类型的一维数组,表示多行一列的数据结构,由于一列中的元素必须是相同的,因此,序列中的数据具有相同的数据类型:行具有索引和行标签属性,每行都有一个索引和行标签.而DataFrame类似于二维的关系表,每列的数据类型是相同的. 一,pandas的数据类型 用dtype属性来显示元素的数据类型,pandas主要有以下几种dtype: ob

Pandas系列之入门篇

Pandas系列之入门篇 简介 pandas 是 python用来数据清洗.分析的包,可以使用类sql的语法方便的进行数据关联.查询,属于内存计算范畴, 效率远远高于硬盘计算的数据库存储.另外pandas还提供了大数据存储的API--HDFStore,来对接HDF5. 安装 pandas 利用豆瓣源,速度快 pip install pandas numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pytabl

storm学习之入门篇(一)

海量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大.自动容错等优点,在海量数据处理上得到了广泛的使用.但是,hadoop不擅长实时计算,因为它天然就是为批处理而生的,这也是业界一致的共识.否则最近这两年也不会有s4,storm,puma这些实时计算系统如雨后春笋般冒出来.先抛开s4,storm,puma这些系统不谈,我们首先来看一下,如果让我们自己设计一个实时计算系统,我们要解决哪些问题: 1.低延迟.都说了是实时计算系统了,延迟是一定要低的

Pandas Cookbook -- 07 分组聚合、过滤、转换

分组聚合.过滤.转换 简书大神SeanCheney的译作,我作了些格式调整和文章目录结构的变化,更适合自己阅读,以后翻阅是更加方便自己查找吧 import pandas as pd import numpy as np 设定最大列数和最大行数 pd.set_option('max_columns',8 , 'max_rows', 8) 1 聚合 读取flights数据集,查询头部 flights = pd.read_csv('data/flights.csv') flights.head() .

pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 describe 针对Series或DataFrame列计算统计 min/max/sum 计算最小值 最大值 总和 argmin argmax 计算能够获取到最小值和最大值的索引位置(整数) idxmin idxmax 计算能够获取到最小值和最大值的索引值 quantile 计算样本的分位数(0到1)

pandas学习(创建多层索引、数据重塑与轴向旋转)

pandas学习(创建多层索引.数据重塑与轴向旋转) 目录 创建多层索引 数据重塑与轴向旋转 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组,Series也可以创建多层索引. s = Series(np.random.randint(0,150,size=6),index=[['a','a','b','b','c','c'],['期中','期末','期中','期末','期中','期末']]) # 输出 a 期中 59 期末 4

Pandas学习之常用函数详解

本文和大家分享的主要是Pandas库常用函数相关内容,一起来看看吧,希望对大家学习Pandas有所帮助. 1. DataFrame 处理缺失值 pandas.DataFrame.dropna df2.dropna(axis=0, how='any', subset=[u'ToC'], inplace=True) 把在ToC列有缺失值的行去掉 2. 根据某维度计算重复的行 pandas.DataFrame.duplicated print df.duplicated(['name']).value