《利用python进行数据分析》之《第二章引言》学习笔记_2

pandas缺失值补充

1、创建带有缺失值的数据框

#coding:utf8

import pandas as pd

import numpy as np

df=pd.DataFrame(np.random.randn(5,3),index=list(‘abcde‘),columns=[‘one‘,‘two‘,‘tree‘])

df.1x[1,:-1]=np.nan

df.1x[1:-1,2]=np.nan

print ‘\ndf1‘

print df

2、使用0替换缺失值

print ‘\zero‘

print df.fillna(0)

3、使用字符串替换缺失值

print ‘\nmissing‘

print df.fillna(‘missing‘)

4、用上一个数据来替代

print ‘\npad‘

print df.fillna(method=‘pad‘)

5、用后一个数据来替代,用limit限制每一列可以替换的数量

print ‘\nbfill‘

print df.fillna(method=‘bfill‘,limit=1)

6、用平均数来替换

print ‘\nmean‘

print df.fillna(df.mean())

6、选择某列用平均数来替换

print ‘\nlimit mean‘

print df.fillna(df.mean() [‘one‘:‘two‘])

时间: 2024-10-29 19:11:09

《利用python进行数据分析》之《第二章引言》学习笔记_2的相关文章

《机器学习导论》第二章 监督学习 学习笔记

训练集上训练的模型在多大程度上能够对新的实例预测出正确输出称为泛化(generalization) 对最好的泛化来说,我们应当使假设的复杂性和潜在数据的函数的复杂性相匹配.如果假设没有函数复杂,例如,当试图用直线拟合从三次项式抽取的数据时,称为欠拟合(underfitting).在这种情况下,随着复杂性的增加,训练误差和确认误差都会降低,但是,如果我们假设太浮渣,数据不足以约束该假设,我们最后也许得不到好的假设.或者如果存在噪声,则过分书杂的假设可能不仅学习潜在的函数,而且也学习数据中的噪声导致

利用Python进行数据分析 第7章 数据清洗和准备

学习时间:2019/10/25 周五晚上22点半开始. 学习目标:Page188-Page217,共30页,目标6天学完,每天5页,预期1029学完. 实际反馈:X集中学习1.5小时,学习6页.实际XXX学完,耗时N天,M小时 数据准备工作:加载.清理.转换以及重塑,通常会占用分析师80%的时间或更多!!!学会高效的数据清洗和准备,将绝对提升生产力!本章将讨论处理缺失数据.重复数据.字符串操作和其他分析数据转换的工具.下一章将关注用多种方法合并.重塑数据集. 7.1 处理缺失数据 缺失数据在pa

利用Python进行数据分析 第6章 数据加载、存储与文件格式

学习时间:2019/10/20 周日下午17点开始.共23页,目标3天学完,每天8页,预期1021学完. 6.1 读写文本格式的数据 6.1.1 逐块读取文本文件 6.1.2 将数据写出到文本格式 6.1.3 处理分隔符格式 6.1.4 JSON数据 6.1.5 XML和HTML:Web信息收集 6.1.6 利用lxml.objectify解析XML 6.2 二进制数据格式 6.2.1 使用HDF5格式 6.2.2 读取Microsoft Excel文件 6.3 Web APIs交互 6.4 数

利用Python进行数据分析 第5章 pandas入门(2)

5.2 基本功能 (1)重新索引 - 方法reindex 方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引. 如,对下面的Series数据按新索引进行重排: 根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN: 利用reindex的method选项,实现插值处理.尤其对于时间序列这样的有序数据,会经常用到该选项. 如,使用 ffill 实现 前向值 填充: 利用DataFrame,reindex修改(行)索引和列.

利用Python进行数据分析 第4章 NumPy基础-数组与向量化计算(2)

2.3 NumPy数组的运算 数组,不需要编写循环即可对数据执行批量运算!NumPy用户称此特性为矢量化(vectorization). (1)大小相等的数组之间的任何算术运算都会将运算应用到元素级 (2)数组与标量的算术运算将标量值传播到各个元素 PS:**在python中表示幂运算,如,2**3表示2的3次方 (3)大小相同的数组之间的比较会生成布尔值数组 (不同大小的数组之间的运算叫广播,本书不需要多广播机制深入理解) 2.4 基本的索引和切片 数组与列表的重要区别在于:数组切片是原始数组

利用python进行数据分析-08-第六章 数据加载、存储与文件格式

1.读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数. 文件导入,使用read_csv将数据导入一个DataFrame df= pd.read_csv('B:/test/ch06/ex1.csv') df Out[142]: a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 foo read_table,只不过需要制定分隔符 df = pd.read_table('B:/test/

利用Python进行数据分析 第5章 pandas入门

pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具.pandas是基于NumPy数组构建. pandas常结合数值计算工具NumPy和SciPy.分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用. 5.1 pandas数据结构介绍 pandas的主要数据结构:Series和DataFrame (1)Series Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)

C++primer(第五版)第二章的学习笔记(也有对部分习题的解答和指出c++11特性)

算术类型分为两类:整型(字符和bool在内)和浮点型. C/C++算术类型 类型 含义 最小尺寸 bool 布尔类型 未定义 char 字符 8位 wchar_t 宽字符 16位 char16_t Unicode字符 16位 char32_t Unicode字符 32位 short 短整型 16位 int  整型 16位 long 长整型 32位 long long 长整型 64位 unsigned long 无符号长整型 32位 double 双精度浮点数 10位有效数字 long doubl

Python基础教程 第8章: 异常 学习笔记

文章部分内容参考至: http://www.runoob.com/python/python-exceptions.html 主动抛异常: class MyException(Exception): pass #相当于c++中的throw, 主动抛异常 raise MyException >>> Traceback (most recent call last): File "hello.py", line 4, in <module> raise MyE

《利用python进行数据分析》读书笔记 --第一、二章 准备与例子

http://www.cnblogs.com/batteryhp/p/4868348.html 第一章 准备工作 今天开始码这本书--<利用python进行数据分析>.R和python都得会用才行,这是码这本书的原因.首先按照书上说的进行安装,google下载了epd_free-7.3-1-win-x86.msi,译者建议按照作者的版本安装,EPDFree包括了Numpy,Scipy,matplotlib,Chaco,IPython.这里的pandas需要自己安装,对应版本为pandas-0.