pandas数据分析第二天

一:汇总和计算描述统计

  pandas对象拥有一组常用的数据和统计方法,用于从Series中提取单个值(sum,mean)或者从DataFrame的行或者列中提取一个Series对应的Numpy数组方法相比

  调用sum可以返回一个小计,传入axis=1会按照行进行计算, axis=0,按照列进行计算

  sum或者mean里面可与约简方法的选项

    axis  约简的轴,DateFrame的行为0,列为1

    skipna 排除缺失值,默认为TRUE

    level  如果轴层次化索引的,则根据level分组约简

  还有些方法是间接统计,idxmin达到最小值索引,idxmax达到最大值索引

  cumsum  累计型统计,

  describe 既不是累计型,也不是约简行,它用于一次性产出多个汇总统计,对于非数值型数据,describe 会产生另一种汇总,查看最下图

  描述汇总统计的方法汇总

  count     非NA值的数量

  describe  针对Series 或者DataFrame列计算汇总统计

  min,max 计算最小值和最大值

  argmin  argmax  计算能够获取得到最小值和最大值的索引位置(整数)

  idxmin  idxman    计算能够获取最小值和最大值的索引值

  quantile               计算样本的分位数(0到1)

  sum   值的总和

  mean  值的平均数

  median  值的算术中位数(50%分位数)

  mad   根据平均值计算平均绝对离差

  var  样本值的方差

  std  样本值的标准差

  skew  样本值的偏度

  kurt 样本值的累计

  cumsum  样本值的累计和

  cummin  cummax  样本值的累计最大值和累计最小值

  cumprod   样本值的累计积

  diff  计算一阶差分(对时间序列很有用)

  pct_change  计算百分数变化

  

  

 由于NA值会自动去吃,如果禁止该功能可以采用skipna=false

  

  

二:相关系数与协方差

  pass

三:唯一值,值计数,以及成员资格

  unique  可以得到唯一值

  value_counts   返回一个Series  其索引为唯一值,其值为频率,按计数值降序排序

  isin  计算一个表示Series各值是否包含传入值序列中的布尔数据类型

  

   

  

  

四:处理缺失数据

  NA处理方法:

  dropna  根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阀值调节对缺失值的容忍度

  fillna  用于指定值或者插入值方法 如fill和bfill 填充数据缺失值

  isnull  返回一个布尔值对象,这些布尔值表示哪些值是缺失值,其中None也会被当做缺失值处理

  notnull  isnull的否定式

  

  

  

  

五:滤除缺失数据

  比如上面提到的,,直接用dropna删除最直接,也可以通过notnull,下面总结一些常用的方法

   Series中处理缺失值 dropna   notnull

  dataframe处理缺失值dropna会将带有NA全部丢弃,传入参数how=’all‘  只会丢弃全部为NA的行,看下面例子

                         传入参数how=‘all‘  axis=1  只会丢去全部为NA列的

  另一个滤除DataFrame行的问题涉及时间序列数据,假设你只是想留下一部分观测数据,可以用tjresh参数实现

  

  

  

  

  另一个滤除DataFrame行的问题涉及时间序列数据,假设你只是想留下一部分观测数据,可以用tjresh参数实现

  

  

六:填充缺失值  

  可以选用参数fillna

  fillna选择参数:

  value  用于填充缺失值的标量值或者字典对象

  method  插值方式 如果函数调用时未指定其他参数的话,默认为ffill  

  axis  待填充的轴,默认axis=0

  inplace  修改调用者对象而不产生副本

  limit  (对于前向和后向填充)可以连续填充的最大数量

  

  

  

  

  

  fillna 可以实现很多功能,比如里面可以传sum,mean等

  

七:层次化索引 

  带有MultiIndex索引的Series的格式化输出形式。索引之间的’间隔‘表示’直接使用上面的标签‘ 

  

  

  层次化索引在数据重塑和基于分组的操作(如透视表生成)中扮演着重要的角色,比如说,这段数据可以通过其unstack方法被重新安排带一个DataFrame中

  

  对于DataFrame

  

八:重排分级顺序

  需要重新调整某条轴上各级别的顺序,或者指定级别上的值对数据进行排序,swaplevel接收两个级别编号或者名称,并返回一个交互啦级别的新对象,而sortlevel则根据单个级别中的值对数据进行排序,交换级别是,常常会用到sortlevel,这样的结果就是有序的

  

九:根据级别汇总统计

  根据DataFrame和Series的描述和汇总统计都有一个level的选项,它用于指定在某条轴上求和的级别

  

  

  

原文地址:https://www.cnblogs.com/1204guo/p/8502913.html

时间: 2024-08-30 17:37:03

pandas数据分析第二天的相关文章

参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码

第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas.NumPy.IPython和Jupyter,并增加大量实际案例,可以帮助高效解决一系列数据分析问题. 第2版中的主要更新了Python第三方发布版Anaconda和其他所需Python包的安装指引: 更新pandas库到2017年的新版: 新增一章关于更多高级pandas工具和一些使用提示:新增statsmodels和scikit-learn的简明使用介绍. 学习参考: <利用Python进行数据分析(第二版)>高清中文

分享《利用Python进行数据分析(第二版)》高清中文版PDF+高清英文版PDF+源代码

资料下载:https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q <利用Python进行数据分析(第二版)>[中文版和英文版][高清完整版PDF]+[配套源代码]<利用Python进行数据分析(第二版)>中文和英文两版对比学习, 高清完整版PDF,带书签,可复制粘贴:还有配套源代码:讲解详细并配有源代码. 其中,高清中文版如图: 原文地址:http://blog.51cto.com/3215120/2306885

利用Python进行数据分析(第二版)电子版书籍分享

资料下载地址: 链接:https://pan.baidu.com/s/1y1C0bJPkSn7Sv6Eq9G5_Ug 提取码:vscu <利用Python进行数据分析(第二版)>高清中文版PDF+高清英文版PDF+配套源代码 高清中文版PDF,带目录和书签,能够复制粘贴:高清英文版PDF,带目录和书签,能够复制粘贴:中英文两版可以对比学习.配套源代码:经典书籍,讲解详细:其中,高清中文版如图: 原文地址:https://www.cnblogs.com/yxxblog/p/10716700.ht

Pandas数据分析 (二)

数据初步探索 数据展示与文本读写 三种展示数据的方式 head() tail() sample() 1 import pandas as pd 2 import numpy as np 3 4 df = pd.read_csv("anime.csv") 5 6 # head(n) 可以显示前 n 个样本,n默认为5 7 df.head() 8 df.head(2) 9 10 # tail(n) 显示末尾 n 个样本 11 df.tail(2) 12 13 # sample(n) 从数据

Pandas 数据分析——超好用的 Groupby 详解

在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别.年龄)进行细分,研究用户的使用情况和偏好等.在 Pandas 中,上述的数据处理操作主要运用 groupby 完成,这篇文章就介绍一下 groupby 的基本原理及对应的 agg.transform 和 apply 操作.PS:很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致

pandas数据分析(数据结构)

本文主要从以下两个方向对pandas的数据结构进行展开,分别为Series和DataFrame(对应的分别是系列与numpy中的一维数组和二维数组) 1.首先从Series讲起,主要介绍Series的创建. 1) 可以通过一位数组进行创建序列 如:在python3.6中测试 #首先导入两个模块, import numpy as np import pandas as pd #创建第一个序列 array1=np.arange(10) print (array1) print(type(array1

数据分析第二章确定分析思路

1. 常用的数据分析方法论 1)PEST分析法:PEST分析法用于对宏观环境的分析.对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治(Political)经济(Economic)技术(Technological)社会(Social)这四大类影响企业的主要外部环境因素进行分析,这种方法简称为PEST分析法 2)5W2H分析法:why,what,who,when,where.how,how much 3)逻辑树:将问题的所有子问题分层罗列,从

动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题

D3.js入门指南 什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据D3的官方定义: D3.js是一个JavaScript库,它可以通过数据来操作文档.D3可以通过使用HTML.SVG和CSS把数据鲜活形象地展现出来.D3严格遵循Web标准,因而可以让你的程序轻松兼容现代主流浏览器并避免对特定框架的依赖.同时,它提供了强大的可视化组件,可以让使用者以数据驱动的方式去操作DOM. D3是这样一个特殊的JavaScript库,它利用现有的Web标准,通过更简单的(

Python - pandas 数据分析

pandas: powerful Python data analysis toolkit 官方文档: http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandas import pandas as pd 2. 获取文件夹下文件名称 import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path): file