pandas数据分析第二天

一：汇总和计算描述统计

　　pandas对象拥有一组常用的数据和统计方法，用于从Series中提取单个值（sum，mean）或者从DataFrame的行或者列中提取一个Series对应的Numpy数组方法相比

　　调用sum可以返回一个小计，传入axis=1会按照行进行计算， axis=0，按照列进行计算

　　sum或者mean里面可与约简方法的选项

　　　　axis 约简的轴，DateFrame的行为0，列为1

　　　　skipna 排除缺失值，默认为TRUE

　　　　level 如果轴层次化索引的，则根据level分组约简

　　还有些方法是间接统计，idxmin达到最小值索引，idxmax达到最大值索引

　　cumsum 累计型统计，

　　describe 既不是累计型，也不是约简行，它用于一次性产出多个汇总统计，对于非数值型数据，describe 会产生另一种汇总，查看最下图

　　描述汇总统计的方法汇总

　　count 非NA值的数量

　　describe 针对Series 或者DataFrame列计算汇总统计

　　min，max 计算最小值和最大值

　　argmin argmax 计算能够获取得到最小值和最大值的索引位置（整数）

　　idxmin idxman 计算能够获取最小值和最大值的索引值

　　quantile 计算样本的分位数（0到1）

　　sum 值的总和

　　mean 值的平均数

　　median 值的算术中位数（50%分位数）

　　mad 根据平均值计算平均绝对离差

　　var 样本值的方差

　　std 样本值的标准差

　　skew 样本值的偏度

　　kurt　样本值的累计

　　cumsum 样本值的累计和

　　cummin cummax 样本值的累计最大值和累计最小值

　　cumprod 样本值的累计积

　　diff 计算一阶差分（对时间序列很有用）

　　pct_change 计算百分数变化

　由于NA值会自动去吃，如果禁止该功能可以采用skipna=false

二：相关系数与协方差

　　pass

三：唯一值，值计数，以及成员资格

　　unique 可以得到唯一值

　　value_counts 返回一个Series 其索引为唯一值，其值为频率，按计数值降序排序

　　isin 计算一个表示Series各值是否包含传入值序列中的布尔数据类型

四：处理缺失数据

　　NA处理方法：

　　dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阀值调节对缺失值的容忍度

　　fillna 用于指定值或者插入值方法如fill和bfill 填充数据缺失值

　　isnull 返回一个布尔值对象，这些布尔值表示哪些值是缺失值，其中None也会被当做缺失值处理

　　notnull isnull的否定式

五：滤除缺失数据

　　比如上面提到的，，直接用dropna删除最直接，也可以通过notnull，下面总结一些常用的方法

　　　Series中处理缺失值 dropna notnull

　　dataframe处理缺失值dropna会将带有NA全部丢弃，传入参数how=’all‘ 只会丢弃全部为NA的行，看下面例子

　　　　　　　　　　　　　　　　　　　　　　　　　传入参数how=‘all‘ axis=1 只会丢去全部为NA列的

　　另一个滤除DataFrame行的问题涉及时间序列数据，假设你只是想留下一部分观测数据，可以用tjresh参数实现

　　另一个滤除DataFrame行的问题涉及时间序列数据，假设你只是想留下一部分观测数据，可以用tjresh参数实现

六：填充缺失值　　

　　可以选用参数fillna

　　fillna选择参数：

　　value 用于填充缺失值的标量值或者字典对象

　　method 插值方式如果函数调用时未指定其他参数的话，默认为ffill

　　axis 待填充的轴，默认axis=0

　　inplace 修改调用者对象而不产生副本

　　limit （对于前向和后向填充）可以连续填充的最大数量

　　fillna 可以实现很多功能，比如里面可以传sum，mean等

七：层次化索引　

　　带有MultiIndex索引的Series的格式化输出形式。索引之间的’间隔‘表示’直接使用上面的标签‘　

　　层次化索引在数据重塑和基于分组的操作（如透视表生成）中扮演着重要的角色，比如说，这段数据可以通过其unstack方法被重新安排带一个DataFrame中

　　对于DataFrame

八：重排分级顺序

　　需要重新调整某条轴上各级别的顺序，或者指定级别上的值对数据进行排序，swaplevel接收两个级别编号或者名称，并返回一个交互啦级别的新对象，而sortlevel则根据单个级别中的值对数据进行排序，交换级别是，常常会用到sortlevel，这样的结果就是有序的

九：根据级别汇总统计

　　根据DataFrame和Series的描述和汇总统计都有一个level的选项，它用于指定在某条轴上求和的级别

原文地址：https://www.cnblogs.com/1204guo/p/8502913.html

时间： 2024-10-29 21:43:04

pandas数据分析第二天的相关文章

参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码

第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas.NumPy.IPython和Jupyter,并增加大量实际案例,可以帮助高效解决一系列数据分析问题. 第2版中的主要更新了Python第三方发布版Anaconda和其他所需Python包的安装指引: 更新pandas库到2017年的新版: 新增一章关于更多高级pandas工具和一些使用提示:新增statsmodels和scikit-learn的简明使用介绍. 学习参考: <利用Python进行数据分析(第二版)>高清中文

分享《利用Python进行数据分析(第二版)》高清中文版PDF+高清英文版PDF+源代码

资料下载:https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q <利用Python进行数据分析(第二版)>[中文版和英文版][高清完整版PDF]+[配套源代码]<利用Python进行数据分析(第二版)>中文和英文两版对比学习, 高清完整版PDF,带书签,可复制粘贴:还有配套源代码:讲解详细并配有源代码. 其中,高清中文版如图: 原文地址:http://blog.51cto.com/3215120/2306885

利用Python进行数据分析(第二版)电子版书籍分享

资料下载地址: 链接:https://pan.baidu.com/s/1y1C0bJPkSn7Sv6Eq9G5_Ug 提取码:vscu <利用Python进行数据分析(第二版)>高清中文版PDF+高清英文版PDF+配套源代码高清中文版PDF,带目录和书签,能够复制粘贴:高清英文版PDF,带目录和书签,能够复制粘贴:中英文两版可以对比学习.配套源代码:经典书籍,讲解详细:其中,高清中文版如图: 原文地址:https://www.cnblogs.com/yxxblog/p/10716700.ht

Pandas数据分析 (二)

数据初步探索数据展示与文本读写三种展示数据的方式 head() tail() sample() 1 import pandas as pd 2 import numpy as np 3 4 df = pd.read_csv("anime.csv") 5 6 # head(n) 可以显示前 n 个样本,n默认为5 7 df.head() 8 df.head(2) 9 10 # tail(n) 显示末尾 n 个样本 11 df.tail(2) 12 13 # sample(n) 从数据

Pandas 数据分析——超好用的 Groupby 详解

在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别.年龄)进行细分,研究用户的使用情况和偏好等.在 Pandas 中,上述的数据处理操作主要运用 groupby 完成,这篇文章就介绍一下 groupby 的基本原理及对应的 agg.transform 和 apply 操作.PS:很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致

pandas数据分析（数据结构）

本文主要从以下两个方向对pandas的数据结构进行展开,分别为Series和DataFrame(对应的分别是系列与numpy中的一维数组和二维数组) 1.首先从Series讲起,主要介绍Series的创建. 1) 可以通过一位数组进行创建序列如:在python3.6中测试 #首先导入两个模块, import numpy as np import pandas as pd #创建第一个序列 array1=np.arange(10) print (array1) print(type(array1

数据分析第二章确定分析思路

1. 常用的数据分析方法论 1)PEST分析法:PEST分析法用于对宏观环境的分析.对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)经济(Economic)技术(Technological)社会(Social)这四大类影响企业的主要外部环境因素进行分析,这种方法简称为PEST分析法 2)5W2H分析法:why,what,who,when,where.how,how much 3)逻辑树:将问题的所有子问题分层罗列,从

动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题

D3.js入门指南什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据D3的官方定义: D3.js是一个JavaScript库,它可以通过数据来操作文档.D3可以通过使用HTML.SVG和CSS把数据鲜活形象地展现出来.D3严格遵循Web标准,因而可以让你的程序轻松兼容现代主流浏览器并避免对特定框架的依赖.同时,它提供了强大的可视化组件,可以让使用者以数据驱动的方式去操作DOM. D3是这样一个特殊的JavaScript库,它利用现有的Web标准,通过更简单的(

Python - pandas 数据分析

pandas: powerful Python data analysis toolkit 官方文档: http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandas import pandas as pd 2. 获取文件夹下文件名称 import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path): file