sklearn学习小结

机器学习的一般流程：

1、获取数据

2、数据预处理

3、数据集分拆

4、搭建模型

5、模型评估

6、模型保存

接下来，以Sklearn为例，一一介绍。

1、获取数据

1.1、导入数据集：

要想使用sklearn中数据集，必须导入datasets模块：

from sklearn import datasets

iris = datasets.load_iris()

x=iris.data

y=iris.target

1.2、创建数据集：

相关接口如：make_blobs,make_classification,make_regression,make_moons

from sklearn.datasets.samples_generator import make_classification

x,y = make_classificatoin(n_samples=6,n_features=5,n_informative=2,n_redundant=2,

n_classes=2,n_cluster_per_class=2,scale=1.0,random_state=20)

2、数据预处理：

数据预处理是机器学习中不可或缺的一环，能使数据更加有效的被模型训练。

from sklearn import preprocessing

2.1、数据归一化

为了提高数据训练的速度和效率，需要在训练前对数据进行归一化。

train_data=[[1.4,2],[2.2,4],[4,5],[6,]]

scaler = preprocessing.StandardScaler().fit(train_data) #基于均值和方差的标准化

scaler = transform(train_data)

scaler = preprocessing.MinMaxScaler(feature_range=(0,1)).fit(train_data) #将特征值归一化到一个固定范围

2.2正则化

正则化的作用是防止过拟合，方法是：先求出样本范数，然后对样本所有元素除以该范数，使用每个样本的范数都为1.

x_norm = preprocessing.normalize(x,norm=‘l2‘)

2.3 Onehot独热编码

onehot编码是对离散特征值的一种编码方式。

onehot_encoder= preprocessing.OneHotEncoder().fit(data)

onehot_encoder.transform(data).toarray()

3、数据集分拆

通常在训练前会把数据集分拆成训练集和验证集，以便我们在训练完模型后可以对模型进行验证。

from sklearn.mode_selection import train_test_split

train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.3,random_state=42)

4、搭建模型

根据业务场景搜集数据，并决定采用什么样的模型。

4.1、线性回归

y=ax+b :a is model.coef_,b is model.intercept_

from sklearn.linear_model import LinearRegression

model = LinearRegression(fit_intercept=True,normalize=False,copy_x=True,n_jobs=1)

4.2、逻辑回归

from sklearn.linear_model import LogisticRegression

model = LogisticRegression(penalty=‘l2‘,dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state =None,solver=‘liblinear‘,max_iter=100,multi_class=‘ovr‘,verbose=0,warm_start=False,n_jobs=1)

4.3 K近邻算法KNN

from sklearn import neighbors

model=neighbors.KNeighborsClassifier(n_neighbors=5,n_jobs=1)

model= neighbors.KNeighborsRegression(n_neighbors=5,n_jobs=1)

4.4 MLP(多层感知机)

from sklearn.neural_network import MLPClassifier

model = MLPClassifier(activation=‘relu‘,solver=‘adam‘,alpha=0.0001)

5、模型评估

5.1、交叉验证

from sklearn.model_selection import cross_val_score

cross_val_score(model,x,y=None,scoring=None,cv=None,n_job2=1)

5.2、检验曲线

from sklearn.model_selection import validation_curve

train_score,test_score = validation_curve(model,x,y,param_name,param_range,cv=None,scoring=None,n_jobs=1)

6、保存模型

我们可以将训练完的模型保存起来，为后续使用作准备。

6.1、保存为pickle

import pickle

with open(‘model.pickle‘,‘wb‘) as f: #保存模型

pickle.dump(model,f)

with open(‘model.pickle‘,‘rb‘) as f: #加载模型

model = pickle.load(f)

model.predict(test_x)

6.2、joblib

from sklearn.externals import joblib

joblib.dump(model,‘model.pickle‘) #保存模型

model= joblib.load(‘model.pickle‘) #加载模型

原文地址：https://www.cnblogs.com/jimchen1218/p/11429726.html

时间： 2024-10-09 17:42:40

sklearn学习小结的相关文章

git学习小结

背景:最近因为工作原因,需要将以前的代码库由bitbucket重新布置在一台服务器上,所以就学习了下git,特此记录下在167这台机器上搭建apache,用做git server,由于以前apache都已经搭好了,所以这里只配置git server 就可以了,此处贴出配置: 服务器搭好了,来到配置中的root目录,git clone https://[email protected]/XXXX 此时,库和服务器都搭好了,用于新库测试的机器也可以从git server上克隆库了,来,我们来试试从

网络编程学习小结

几种网络编程方式: ISAPI.CGI.WinInet.Winsock 它们之间的差别: 1) ISAPI主要是开发基于浏览器client与server端程序.效率比CGI方式高,并且也扩展了CGI没有的一些功能.(基于TCP/IP模型中的应用层) 2) CGI主要是开发基于浏览器client与server端程序.(基于TCP/IP模型中的应用层) 3) WinInet主要是开发client程序.(基于TCP/IP模型中的应用层) 4) Winsock主要是基于socket来开发clie

MogileFS学习小结

大纲: 一.关于MogileFS 二.常见分布式文件系统三.MogileFS基本原理四.MogileFS的实现一.关于MogileFS 当下我们处在一个互联网飞速发展的信息社会,在海量并发连接的驱动下每天所产生的数据量必然以几何方式增长,随着信息连接方式日益多样化,数据存储的结构也随着发生了变化.在这样的压力下使得人们不得不重新审视大量数据的存储所带来的挑战,例如:数据采集.数据存储.数据搜索.数据共享.数据传输.数据分析.数据可视化等一系列问题. 传统存储在面对海量数据存储表现出的力不从

201671010130 2016-2017-2 《Java程序设计》第四周学习小结

第四周学习小结本次实验巩固了上次实验分隔数并求和的题,目前这个题有两种做法,一种是不断对数10求余,余数保存在sum中,然后左移一位,直到余数为零.另一种就是将数字强制转换成一个字符串数组String s=String.valueOf(num),根据方法s.toCharArray()将字符分离出来,据"x"-"0"=x,unicode码值相减即可得x的值. 父类和子类能够看两个交集,super关键字是否能够看做一个子类和超类的接口呢? 在子类中可以增加域.增加方法

初识ASP.NET---点滴的积累---ASP.NET学习小结

差不多十多天前学习完了北大青鸟的学习视频,没想到没几天的时间就看完了XML视频和牛腩的Javascript视频.学习完了也该总结总结,理理自己的思路,消化一下自己学习到的东西. 视频中的理论知识并不是很多,以例子驱动学起来也不会他过于乏味.全部的学习内容大概的可以用下图表示. 个人感觉这套视频的体系感不是很强,每一集之间老师的串联并不是做得很好,向我等没有教材的有些小的知识无从知晓.但是不能不说这套视频确很适合初学者学习,老师讲解的也不错,从此我也算是入门. 当然要想进一步的了解ASP.NET并

8086汇编学习小结———实时更新

初学IBM-PC 8086,对INT指令不是很理解.现从网上总计如下: 表:DOS系统功能调INT 21H AH 功能调用参数返回参数 00 程序终止(同INT 20H) CS=程序段前缀 01 键盘输入并回显 AL=输入字符 02 显示输出 DL=输出字符 03 异步通迅输入 AL=输入数据 04 异步通迅输出 DL=输出数据 05 打印机输出 DL=输出字符 06 直接控制台I/O DL=FF(输入)DL=字符(输出) AL=输入字符 07 键盘输入(无回显) AL=输入字符 08 键盘

《Pro AngularJS》学习小结-01

<Pro AngularJS>该书以一个SportsStore案例为主线铺开. 一.开发环境设置该书中所用的server开发环境是Deployed,从来没听说过,而且作者也说该server没什么人用,我干脆弃用之.其他的环境包括 NodeJS--这个必须装 karma--测试环境,前期还没有用到,以后认真研究,毕竟AngularJS一大特点是Unit Test bootstrap--这个现在应该普遍使用了,O(∩_∩)O webstorm--现在唯一支持AngularJS插件的IDE 我基本

自动化测试Selenium Webdriver （JAVA）学习小结

自动化测试--Selenium学习小结一.自动化测试的概念及意义: 1.什么是自动化测试: 一般是指软件测试的自动化,软件测试就是在预设条件下运行系统或应用程序,评估运行结果,预先条件应包括正常条件和异常条件. 2.意义: 让测试更有效率,利用更多的空余时间,减少人力资源. 二.selenium工具我用的是java语言,所以接下来的例子和方法都是基于java的. 1.环境配置 (1)Jdk的配置: 我用的是1.7的jdk,配置方法都一样,新建一个JAVA_HOME,把你装好的jdk的路径复制

点滴的积累---J2SE学习小结

点滴的积累---J2SE学习小结什么是J2SE J2SE就是Java2的标准版,主要用于桌面应用软件的编程:包括那些构成Java语言核心的类.比方:数据库连接.接口定义.输入/输出.网络编程. 学习感受近半个月的坎坷,总算是将马士兵的<J2SE教程>视频看完了,期间一些其它的事一些不得不处理的事总是打断我的安排.看了视频之后认为东西确实都非常基础给我印象最深的是关于程序执行的内存分析.IO和线程,这谁在之前不管是学习VB.VB.NET还是C#中都没怎么设计到的东西. 首先,我想对于一个初学