Sklearn-CrossValidation 交叉验证

1. 交叉验证概述

进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。

最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型的预测表现能力,这种度量方式叫测试准确度,这种方式可以有效避免过拟合。

测试准确度的一个缺点是其样本准确度是一个高方差估计(high varianceestimate),所以该样本准确度会依赖不同的测试集,其表现效果不尽相同。

2. K折交叉验证

  1. 将数据集平均分割成K个等份
  2. 使用1份数据作为测试数据,其余作为训练数据
  3. 计算测试准确率
  4. 使用不同的测试集,重复2、3步骤
  5. 对测试准确率做平均,作为对未知数据预测准确率的估计

sklearn.model_selection.Kfold

classsklearn.model_selection.KFold(n_splits=3,shuffle=False, random_state=None)

参数:

  • n_splits : 默认3,最小为2;K折验证的K值
  • shuffle : 默认False;shuffle会对数据产生随机搅动(洗牌)
  • random_state :默认None,随机种子

get_n_splits([X, y, groups])        Returnsthe number of splitting iterations in the cross-validator

split(X[, y, groups])        Generateindices to split data into training and test set.

3. sklearn.cross_validation模块

cross validation大概的意思是:对于原始数据我们要将其一部分分为traindata,一部分分为test data。train data用于训练,test data用于测试准确率。在test data上测试的结果叫做validation error。将一个算法作用于一个原始数据,我们不可能只做出随机的划分一次train和testdata,然后得到一个validation error,就作为衡量这个算法好坏的标准。因为这样存在偶然性。我们必须多次的随机的划分train data和test data,分别在其上面算出各自的validation error。这样就有一组validationerror,根据这一组validationerror,就可以较好的准确的衡量算法的好坏。crossvalidation是在数据量有限的情况下的非常好的一个evaluate performance的方法。而对原始数据划分出train data和testdata的方法有很多种,这也就造成了cross validation的方法有很多种。

主要函数:

sklearn中的cross validation模块,最主要的函数是如下函数:

sklearn.cross_validation.cross_val_score

调用形式是:sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None,n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs‘)

返回值就是对于每次不同的的划分raw data时,在test data上得到的分类的准确率。

参数解释:

estimator:是不同的分类器,可以是任何的分类器。比如支持向量机分类器:estimator = svm.SVC(kernel=‘linear‘, C=1)

cv代表不同的cross validation的方法。如果cv是一个int值,并且如果提供了rawtarget参数,那么就代表使用StratifiedKFold分类方式;如果cv是一个int值,并且没有提供rawtarget参数,那么就代表使用KFold分类方式;也可以给定它一个CV迭代策略生成器,指定不同的CV方法。

scoring:  默认Nnoe,准确率的算法,可以通过score_func参数指定;如果不指定的话,是用estimator默认自带的准确率算法。

4. 几种不同的CV策略生成器

cross_val_score中的参数cv可以接受不同的CV策略生成器作为参数,以此使用不同的CV算法。除了刚刚提到的KFold以及StratifiedKFold这两种对rawdata进行划分的方法之外,还有其他很多种划分方法,这里介绍几种sklearn中的CV策略生成器函数。

  • K-fold

最基础的CV算法,也是默认采用的CV策略?。主要的参数包括两个,一个是样本数目,一个是k-fold要划分的份数。

# 交叉验证例子
import numpy as np
from sklearn.model_selection import KFold

X= np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y= np.array([1, 2, 3, 4])
kf= KFold(n_splits=2)
kf.get_n_splits(X)#给出K折的折数,输出为2
print(kf)
#输出为:KFold(n_splits=2, random_state=None,shuffle=False)
for train_index, test_index in kf.split(X):
    print("TRAIN:",train_index, "TEST:", test_index)
    X_train,X_test = X[train_index], X[test_index]
    y_train,y_test = y[train_index], y[test_index]
#输出:TRAIN: [2 3] TEST: [0 1]
#TRAIN: [0 1] TEST: [2 3]

#这里kf.split(X)返回的是X中进行分裂后train和test的索引值,令X中数据集的索引为0,1,2,3;

第一次分裂,先选择test,索引为0和1的数据集为test,剩下索引为2和3的数据集为train;

第二次分裂,先选择test,索引为2和3的数据集为test,剩下索引为0和1的数据集为train。

  • Stratified k-fold

原文地址:https://www.cnblogs.com/Allen-rg/p/9255948.html

时间: 2024-08-30 05:23:15

Sklearn-CrossValidation 交叉验证的相关文章

机器学习-CrossValidation交叉验证详解

版权声明:本文为原创文章,转载请注明来源. 1.原理 1.1 概念 交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测.PCR.PLS回归建模等.在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值.这个过程迭代K次,即K折交叉.其中,把每个样本的预测误差平方加和,称为PRESS(predicted Error Sum of Squares). 1.2

使用sklearn进行交叉验证

交叉验证之前的知识:我们如何评估一个模型  当我们想要测试我们的模型效果怎么样的时候,最好的方法是在实际的样本当中进行测试,这样可以测试出模型的泛化误差,但是实际的样本是没有标签的,所以这是一个悖论,我们无法知道样本的泛化误差. 假如我们在我们训练模型的数据上面直接进行测试的话,结果会很好,会出现过拟合的方式,所以这样来进行模型评估也是不行的. 所以,测试我们模型的方法就需要把我们已有的数据分为两部分,一部分用进行模型的训练,我们把它叫做训练集,另外一部分专门用来训练,我们把它叫做测试集. 在p

如何调用sklearn模块做交叉验证

终于搞明白了如何用sklearn做交叉验证!!! 一般在建立完模型之后,我们要预测模型的好坏,为了试验的可靠性(排除一次测试的偶然性)我们要进行多次测试验证,这时就要用交叉验证. sklearn中的sklearn.cross_validation.cross_val_score函数已经帮我们做好了. 直接调用就可以了. 无论是做回归还是做分类,都可以用这个函数. 具体用法: from sklearn.cross_validation import cross_val_score metric =

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速 茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用broadcast和矩阵的数学性质实现无循环 图片被拉伸为一维数组 X_train:(train_num, 一维数组) X:(test_num, 一维数组) 方法验证 import numpy as np a = np.array([[1,1,1],[2,2,2],[3,3,3]]) b

cross_val_score 交叉验证与 K折交叉验证,嗯都是抄来的,自己作个参考

因为sklearn cross_val_score 交叉验证,这个函数没有洗牌功能,添加K 折交叉验证,可以用来选择模型,也可以用来选择特征 sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs') 这里的cv 可以用下面的kf 关于s

基于sklearn和keras的数据切分与交叉验证

在训练深度学习模型的时候,通常将数据集切分为训练集和验证集.Keras提供了两种评估模型性能的方法: 使用自动切分的验证集 使用手动切分的验证集 一.自动切分 在Keras中,可以从数据集中切分出一部分作为验证集,并且在每次迭代(epoch)时在验证集中评估模型的性能. 具体地,调用model.fit()训练模型时,可通过validation_split参数来指定从数据集中切分出验证集的比例. # MLP with automatic validation set from keras.mode

sklearn 中的交叉验证

sklearn中的交叉验证(Cross-Validation) sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好.今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解,英文水平好的建议读官方文档,里面的知识点很详细. 1. cross_val_score对数据集进行指定次数的交叉验证并为每次验证效果评测其中,sco

交叉验证Cross-Validation

PRML中首章绪论的模型选择,提到两个方法: 1.交叉验证(Cross-Validation) 2.赤池信息准则(Akaike Information Criterion),简称:AIC. 交叉验证是模型选择的一种方法,若有模型选择问题,就可以用交叉验证.例如做线性回归,你有 10 个变量,就有 (2的10次方=)1024 个模型需要选择,就可以使用交叉验证 或者 AIC. 使用交叉验证是从预测的角度去做,使用 AIC 是从模型的复杂度与模型的拟合角度去做. 交叉验证: (ref-baidu :

paper 35 :交叉验证(CrossValidation)方法思想

交叉验证(CrossValidation)方法思想简介 以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下: 1).Hold-Out Method 将原始数据随机分

交叉验证 Cross-validation

对交叉验证这个问题,一直以来,不明白是怎么回事.近期看材料,涉及到了这个问题,写的通俗易懂,有种恍然大悟的感觉.下面,我写下对这个问题的理解. 现在假设这里有一堆数据,作为统计er的任务就是从这些数据中提取有用的信息.如何提取信息呢,我们的法宝就是–模型.模型在统计当中是极其重要的,学统计就是跟各种各样的模型混个脸熟.在模型的基础上,我们利用数据对模型的参数进行估计,从而通过参数化后的模型来描述数据的内在关系,了解数据内在的关系(pattern)非常必要,有助于对未来进行预测. 那么对于手里的数