将数据划分为训练集和测试集；缩放特征区间

导入葡萄酒数据：

 1 import numpy as np
 2 import pandas as pd
 3
 4 df_wine = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", header=None)
 5 df_wine.columns = ["class label", "alcohol",
 6                    "malic acid", "ash",
 7                    "alcalinity of ash", "magnesium",
 8                    "total phenols", "flavanoids",
 9                    "nonflavaniod phenols", "proanthocyanins",
10                    "color intensity", "hue",
11                    "OD280/OD315 of diluted wines", "proline"]
12 # 查看类标
13 print("class label:", np.unique(df_wine["class label"]))
14 print(df_wine.head())

运行结果：

划分训练集和测试集：

　　我们可以使用 sklearn.model_selection 中的 train_test_split 划分数据，test_size用来设置测试数据的比例，random_state用来

设置随机数是否保持一致。

1 from sklearn.model_selection import train_test_split
2 # import warnings
3 # warnings.filterwarnings(‘ignore‘)
4 x, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
5 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

　　这里如果你用的是 sklearn.cross_validation 的 train_test_split ,那么代码是会报警告的，由于版本的更新，推荐使用上面的代码。

特征缩放：

　　特征缩放我们可以采用归一化和标准化两者方法

 1 # 特征缩放：归一化
 2 from sklearn.preprocessing import MinMaxScaler
 3 mms = MinMaxScaler()
 4 x_train_norm = mms.fit_transform(x_train)
 5 x_test_norm = mms.transform(x_test)
 6 print(x_test_norm, "\n")
 7
 8 # 特征缩放：标准化
 9 from sklearn.preprocessing import StandardScaler
10 stdsc = StandardScaler()
11 x_train_std = stdsc.fit_transform(x_train)
12 x_test_std = stdsc.transform(x_test)
13 print(x_test_std)

原文地址：https://www.cnblogs.com/dan-baishucaizi/p/9107858.html

时间： 2024-12-14 09:40:06

将数据划分为训练集和测试集；缩放特征区间的相关文章

随机切分csv训练集和测试集

使用numpy切分训练集和测试集觉得有用的话,欢迎一起讨论相互学习~Follow Me 序言在机器学习的任务中,时常需要将一个完整的数据集切分为训练集和测试集.此处我们使用numpy完成这个任务. iris数据集中有150条数据,我们将120条数据整合为训练集,将30条数据整合为测试集. iris.csv下载程序 import csv import os import numpy as np '''将iris.csv中的数据分成train_iris和test_iris两个csv文件,其中t

sklearn——train_test_split 随机划分训练集和测试集

sklearn--train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html 一般形式: train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和

sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画

from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y = make_classification() def plot_validation_curve(estimator,X,y,param_name="gamma", param_range=np.logspace(-6,-1,5),cv=5,scoring="accuracy&

AI - MLCC06 - 训练集和测试集 (Training and Test Sets)

原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 1- 拆分数据可将单个数据集拆分为一个训练集和一个测试集. 训练集 - 用于训练模型的子集. 测试集 - 用于测试训练后模型的子集. 训练集的规模越大,模型的学习效果越好.测试集规模越大,对于评估指标的信心越充足,置信区间就越窄.在创建一个能够很好地泛化到新数据模型的过程中,测试集充当了新数据的代理. 拆分数据的一些注意

如何把数据集划分成训练集和测试集

本文内容来自周志阳<机器学习> 问题: 对于一个只包含\(m\)个样例的数据集\(D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\),如何适当处理,从\(D\)中产生训练集\(S\)和测试集\(T\)? 下面介绍三种常见的做法: 留出法交叉验证法自助法留出法(hold-out) 留出法直接将数据集\(D\)划分为两个互斥的集合,其中一个集合作为训练集\(S\),留下的集合作为测试集\(T\),即\(D=S \cup T, S \cap T=\emptys

Python数据预处理—训练集和测试集数据划分

使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: >>> import numpy as np >>> from sklearn.cross_validation import train_test_split >>> X, y = np.arange(10).reshape((5, 2)), range(5)

python 将数据随机分为训练集和测试集

# -*- coding: utf-8 -*- """ Created on Tue Jun 23 15:24:19 2015 @author: hd """ from sklearn import cross_validation c = [] j=0 filename = r'C:\Users\hd\Desktop\bookmarks\bookmarks.arff' out_train = open(r'C:\Users\hd\Desktop

用于拆分训练集和测试集的函数 train_test_split

文档地址:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split 原文地址:https://www.cnblogs.com/s1m00n/p/11565913.html

模型训练过程中的训练集、训练开发集、开发集和测试集总结

36.什么时候你应该在不同分布上做训练和测试当你的猫app已经上传10000张图,你已经人工标记它们有没有猫,同时你有200000张互联网上下载的图,这时你要怎么划分训练开发测试集呢? 当你训练深度学习模型时,可能必须用到那200000张图,那么训练和测试集的分布就不同,这会怎样影响你的工作呢? 当然将210000张图片随机分裂到训练开发测试集是一种方法,但我(吴恩达)不推荐这种方法,记住选择开发测试集的推荐方法是:选择你未来预期会得到的数据来作为开发测试集. 大多数学术文章假设训练开发测试集