[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理

reference : http://www.cnblogs.com/chaosimple/p/4153158.html

关于缺失值（missing value）的处理

在sklearn的preprocessing包中包含了对数据集中缺失值的处理，主要是应用Imputer类进行处理。

首先需要说明的是，numpy的数组中可以使用np.nan/np.NaN（Not A Number）来代替缺失值，对于数组中是否存在nan可以使用np.isnan()来判定。

使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型，代码如下：

>>> type(np.NaN)

<type ‘float‘>

>>> type(np.nan)

<type ‘float‘>

>>> np.NaN

nan

>>> np.nan

nan

因此，如果要进行处理的数据集中包含缺失值一般步骤如下：

1、使用字符串‘nan‘来代替数据集中的缺失值；

2、将该数据集转换为浮点型便可以得到包含np.nan的数据集；

3、使用sklearn.preprocessing.Imputer类来处理使用np.nan对缺失值进行编码过的数据集。

代码如下：

>>> from sklearn.preprocessing import Imputer

>>> imp = Imputer(missing_values=‘NaN‘, strategy=‘mean‘, axis=0)

>>> X=np.array([[1, 2], [np.nan, 3], [7, 6]])

>>> Y=[[np.nan, 2], [6, np.nan], [7, 6]]

>>> imp.fit(X)

Imputer(axis=0, copy=True, missing_values=‘NaN‘, strategy=‘mean‘, verbose=0)

>>> imp.transform(Y)

array([[ 4. , 2. ],

[ 6. , 3.66666667],

[ 7. , 6. ]])

上述代码使用数组X去“训练”一个Imputer类，然后用该类的对象去处理数组Y中的缺失值，缺失值的处理方式是使用X中的均值（axis=0表示按列进行）代替Y中的缺失值。

当然也可以使用imp对象来对X数组本身进行处理。

通常，我们的数据都保存在文件中，也不一定都是Numpy数组生成的，因此缺失值可能不一定是使用nan来编码的，对于这种情况可以参考以下代码：

>>> line=‘1,?‘

>>> line=line.replace(‘,?‘,‘,nan‘)

>>> line

‘1,nan‘

>>> Z=line.split(‘,‘)

>>> Z

[‘1‘, ‘nan‘]

>>> Z=np.array(Z,dtype=float)

>>> Z

array([ 1., nan])

>>> imp.transform(Z)

array([[ 1. , 3.66666667]])

上述代码line模拟从文件中读取出来的一行数据，使用nan来代替原始数据中的缺失值编码，将其转换为浮点型，然后使用X中的均值填补Z中的缺失值。

时间： 2024-07-30 13:34:38

[Scikit-Learn] - 数据预处理 - 缺失值（Missing Value）处理的相关文章

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类

scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import numpy as np from sklearn.pipeline import Pipeline from sklearn.linear_model import SGDClassifier from sklearn.grid_search import GridSearchCV from sk

python data analysis | python数据预处理（基于scikit-learn模块）

原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Feature extration|特征提取 Preprocessing data|数据预处理 1 Dataset transformations scikit-learn provides a library of transformers, which may clean (see Preproce

python数据分析入门——数据导入数据预处理基本操作

数据导入到python环境:http://pandas.pydata.org/pandas-docs/stable/io.html(英文版) IO Tools (Text, CSV, HDF5, ...)? The pandas I/O API is a set of top level reader functions accessed like pd.read_csv() that generally return a pandasobject. read_csv read_excel re

数据预处理（完整步骤）

原文:http://dataunion.org/5009.html 一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据:数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误.或异常(偏离期望值)的数据高维度二:数据预处理的方法(1)数据清洗 —— 去噪声和无关数据(2)数

数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理数据质量的三个要素:准确性.完整性和一致性. 3.1.2 数据预处理的主要任务数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据. 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局常量填充缺失值 4.使用属性的中心度量填充缺失值:中位数 5.使用与给定元组属同一类的所有样本的属性均值或中位数 6.使用最可能的值填充缺失值:回归/贝叶斯/决策树第6种是最流行的策略 3.2.2

《数据挖掘概念与技术》--第三章数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

WEKA中的数据预处理

数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值. 标准化(standardize):类weka.filters.unsupervised.attribute.Standardize.标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布.

【读书笔记-数据挖掘概念与技术】数据预处理

数据预处理的目的:提高数据质量,数据质量的三要素:准确性.完整性.一致性. 数据预处理的任务: 数据清理数据集成数据规约数据变换数据清理--填充缺失的值.光滑噪声.识别离群点.纠正数据中的不一致缺失值: 忽略元组人工填写缺失值使用一个全局常量使用属性的中心度量使用与给定元组属同一类的所有样本的属性均值或中位数使用最可能的值(最流行) 噪声数据分箱回归离群点分析数据集成--合并来自多个数据存储的数据实体识别问题冗余和相关分析元组重复数据值冲突的监测与处理数据规

数据预处理（数据的操作2）

2.常用数据预处理方法这个部分总结的是在Python中常见的数据预处理方法. 2.1标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差.也叫z-score规范化(零均值规范化).计算方式是将特征值减去均值,除以标准差. sklearn.preprocessing.scale(X) 一般会把train和test集放在一起做标准化,或者在train集上做标准化后,用同样的标准化去标准化test集,此时