Pandas 10分钟入门----缺失数据的处理(官方文档注释版三)

在日常我们获取的数据中,经常会出现数据缺失的情况。对数据缺失的处理,有多种处理的方法:插值填补、平均值填补方法很多。这里不具体讨论用哪种方式去插补这些数据,而只是谈谈如何使用pandas去快速的处理这些数据。

pandas 常用np.nan代表缺失数据,详情可以查看Missing Data section

1、 reindex()可以允许你在指定维度上修改、增加、删除索引,并返回数据的副本:

 df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + [‘E‘])

 df1.loc[dates[0]:dates[1],‘E‘] = 1

 df1

                   A         B         C  D    F    E
2013-01-01  0.000000  0.000000 -1.509059  5  NaN  1.0
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0
2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  NaN
2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  NaN

2、丢弃有缺失的行 dropna

可以是dropna(axis=xx),增加参数从而只清理一个维度的值

注意:这里显示的是返回的副本的值,而不是原始的值

3、填充空值

>>> df2.fillna(value=9.9)
                   A         B         C         D    E  F
2017-01-01  1.500000  2.500000  0.123356 -1.798571  9.9  1
2017-01-02 -0.459646  0.520100  0.511138  0.183975  9.9  2
2017-01-03  0.463326 -0.970487 -1.120780 -0.614481  5.0  3
2017-01-04  1.505464 -1.743313  1.020903 -1.049047  5.0  4

4、用布尔型标识那些是空值

>>> pd.isnull(df2)
                A      B      C      D      E      F
2017-01-01  False  False  False  False   True  False
2017-01-02  False  False  False  False   True  False
2017-01-03  False  False  False  False  False  False
2017-01-04  False  False  False  False  False  False

5、用前置值或者后置值填充空值 fillna(method=xxx)

method中的backfill是后向,pad代表前向。该方法对于reindex一样适用。

时间: 2024-10-06 04:06:27

Pandas 10分钟入门----缺失数据的处理(官方文档注释版三)的相关文章

Pandas 10min入门(官方文档注释版一)

接触Pandas有一段时间,但一直未能系统的进行过总结.最近开始接触机器学习,用pandas的地方颇多,因此专门重新整理以下. 首先,Pandas 作为Python处理矩阵类数据的王牌利器,其官方文档相当丰富而且详细,为了方便学习Pandas官方竟然给了一个10min中的入门教程,链接如下:http://pandas.pydata.org/pandas-docs/stable/10min.html . 教程很详细,但是对于入门者而言,个人感觉还是缺少一些说明.因此特意增加了一些相关的注释和说明.

Pandas 10分钟入门(官方文档注释版二)

本文接续注释版1,前文重点讲述了如何创建一个panads对象,本文重点讲述如何查看这些已经创建的对象. [查看数据] See the top & bottom rows of the frame(查看frame头部和尾部的行) >>> import pandas as pd >>> long_series = pd.Series(np.random.randn(1000)) >>> import numpy as np >>>

Apache Shiro系列三:10分钟入门

一.            介绍 看完这个10分钟入门之后,你就知道如何在你的应用程序中引入和使用Shiro.以后你再在自己的应用程序中使用Shiro,也应该可以在10分钟内搞定. 二.            概述 关于Shiro的废话就不多说了,详情可以看http://www.cnblogs.com/strinkbug/p/6117353.html Apache Shiro可以做什么?http://shiro.apache.org/features.html 答案是很多,但是在这里我们就不展开

10分钟入门微信小程序开发:从环境搭建到开发出第一个程序。

小程序简介 小程序是一种不需要下载安装即可使用的快速应用,它实现了应用“触手可及”的操作:用户扫一扫或搜一下即可打开应用,完全不需要安装,因此小程序不仅可提高的用户的应用体验,也方便应用的传扩散. 本文带大家快速入门小程开发,了解从环境搭建到开发出一个简单hello world程序,从而上手小程序开发,让你快速成功小程序开发人员.之后,想开发什么样的小程序,就可以自己研究和努力了. 下面,是循序渐经的步骤: ?1.注册小程序 在开发之前,当然需要先注册一个小程序账号. 进入“微信公众平台”进行注

10分钟入门opengl投影变换推导(内含mathjax公式)

*/ pre code { display: block; padding: 0.5em; color: #333; background: #f8f8ff } pre .comment, pre .template_comment, pre .diff .header, pre .javadoc { color: #998; font-style: italic } pre .keyword, pre .css .rule .keyword, pre .winutils, pre .javas

sql server:取当前时间前10分钟之内的数据 dateadd()

当前时间 select GETDATE() 当前时间点前10分钟 dateadd() select dateadd(minute,-10,GETDATE()) 取当前时间点前10分钟以内的数据,且按创建时间倒序排 select * from tablename where CreateDate > dateadd(minute,-10,GETDATE()) order by CreateDate desc dateadd(间隔类型,增量,时间点) select DATEADD(year,-1,g

一起学微软Power BI系列-官方文档-入门指南(5)探索数据奥秘

我们几篇系列文章中,我们介绍了官方入门文档与获取数据等基本知识.今天继续给大家另外一个重点,探索数据奥秘.有了数据源,有了模型,下一步就是如何解析数据了.解析数据的过程需要很多综合技能,不仅仅是需要掌握Power BI的功能要点,熟练的利用一些新功能来提高效率,同时还需要合理的利用仪表盘,以及合理的调整对象,同时作为一个完整的应用,必须掌握数据刷新和同步的技巧,避免做重复工作. 本文原文地址:一起学微软Power BI系列-官方文档-入门指南(5)探索数据奥秘 Power BI系列文章地址:微软

苹果官方文档阅读的入门

1.下载和打开官方文档的步骤 (1).在code->preferences->components(目录下的document栏目)可以下载相关的官方文档 (2).在help->documentation and API references中可以打开官方文档 2.下面介绍的是官方网站上的文档结构,相关链接:https://developer.apple.com/library/ios/navigation/#section=Resource%20Types&topic=Guide

一起学微软Power BI系列-官方文档-入门指南(6)Power BI与Excel

今天介绍了官方入门文档中有关PowerBI和Excel的知识.前几篇入门文档有点仓促,加上最近时间的研究,会有更多技巧性和入门型的文章或者视频发布,最后2篇入门文档将更加详细一点,因为部分文章进行简单的翻译. 本文原文地址:一起学微软Power BI系列-官方文档-入门指南(6)Power BI与Excel Power BI系列文章地址:微软Power BI技术文章与资源目录 1.系列文章说明 一起学微软Power BI系列 文章将分为 官方文档,文档翻译,中文入门教程,中文视频教程和案例等内容