最简单的机器学习流程 基于sklearn

最简单的机器学习流程
1读取数据
import pandas as pd
data = pd.read_csv
2切分数据与标签
datax = data.iloc[]
datay = data.iloc[]
3划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(datax,datay,test_size = ,random_state=)
4无量纲化
from sklearn.preprocessing import StandardScaler
transfer = StandScaler()
x_train_new = transfer.fit_transfrom(x_train)
x_test_new = transfer.transform(x_test)
5预估器流程(svm举例)
from sklearn.svm import svc
estimator = svc(c=1.0,kernel = ‘rbf‘,gamma=‘auto‘....)
6网格搜索,交叉验证暴力求解超参数
from sklearn.model_selection import GridSearchCV
c_range=np.logspace(-5,15,11,base=2)
gamma_range = np.logspace(-15,3,13,base=2)
param_grid=[{‘kernel‘=[‘rbf‘],‘c‘=c_range,‘gamma‘=gamma_range}]#暴力求解c,与gamma的值
grid = GridSearchCV(estimator,param_grid,cv=5,n_jobs=-1)
estimator = grid.fit(x_train,y_train)
7模型评估
y_predict = estimator.predict(x_test)
print(y_test==y_predict)
score = estimator.score(x_test,y_test)
print(score)

原文地址:https://www.cnblogs.com/rhythmli/p/12402053.html

时间: 2024-10-04 13:08:19

最简单的机器学习流程 基于sklearn的相关文章

机器学习:基于sklearn的AUC的计算原理

AUC原理 一.AUC起源 AUC是一种用来度量分类模型好坏的一个标准.这样的标准其实有很多,例如:大约10年前在 machine learning文献中一统天下的标准:分类精度:在信息检索(IR)领域中常用的recall和precision,等等.其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的深度的变 化.近年来,随着machine learning的相关技术从实验室走向实际应用,

简单易学的机器学习算法——基于密度的聚类算法DBSCAN

一.基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks>引起了大家的关注(在我的博文"论文中的机器学习算法--基于密度峰值的聚类算法"中也进行了中文的描述).于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域.与基于距离的聚

基于sklearn进行线性回归、logistic回归、svm等的简单操作总结

基于sklearn的一些AI算法基本操作 sklearn中的一些相关的库 分别导入这些相关算法的库 import pandas as pd #导入一个用于读取csv数据的容器 from sklearn.model_selection import train_test_split #用于数据集划分的模块 from sklearn.model_selection import GridSearchCV #用于交叉验证的模块 from sklearn.neighbors import KNeighb

spark 与 scikit-learn 机器学习流程组件设计哲学比较

概述:估算器,变换器和管道 - spark.ml 该spark.ml软件包旨在提供基于DataFrame构建的一组统一的高级API ,帮助用户创建和调整实用的机器学习流程.有关子包的指南,请参阅下面的算法指南部分 spark.ml,包括Pipelines API特有的功能转换器,集合等. 管道中的主要概念 Spark ML标准化了用于机器学习算法的API,使得将多种算法组合到单个管道或工作流中变得更加容易.本节介绍Spark ML API引入的关键概念,其中管道概念主要受scikit-learn

机器学习之基于朴素贝叶斯文本分类算法

原理 在分类(classification)问题中,常常需要把一个事物分到某个类别.一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,-,xn),用x这个向量来代表这个事物.类别也是有很多种,用集合Y=y1,y2,-ym表示.如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别.这就是所谓的分类(Classification). x的集合记为X,称为属性集.一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属

03_有监督学习--简单线性回归模型(调用 sklearn 库代码实现)

有监督学习--简单线性回归模型(调用 sklearn 库代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.导入机器学习库 sklearn4.测试:运行算法,从训练好的模型中提取出系数和截距5.画出拟合曲线6.附录-测试数据 有监督学习--简单线性回归模型(调用 sklearn 库代码实现) 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt 1.导入数据(data.csv) points = np.genfro

简单实现接口自动化测试(基于python+unittest)

简单实现接口自动化测试(基于python+unittest) 简介 本文通过从Postman获取基本的接口测试Code简单的接口测试入手,一步步调整优化接口调用,以及增加基本的结果判断,讲解Python自带的Unittest框架调用,期望各位可以通过本文对接口自动化测试有一个大致的了解. 引言 为什么要做接口自动化测试? 在当前互联网产品迭代频繁的背景下,回归测试的时间越来越少,很难在每个迭代都对所有功能做完整回归.但接口自动化测试因其实现简单.维护成本低,容易提高覆盖率等特点,越来越受重视.

一个简单的项目流程

一个简单的项目流程 一.需求分析 二.设计 技术选型 数据库设计 三.开发 环境搭建 编码 四.测试 五.部署运维 原文地址:https://www.cnblogs.com/zhuobo/p/10806758.html

基于sklearn K临近算法 最简单预测 花的种类

因为注释已经很详细了,所以直接上代码: 1 from sklearn.datasets import load_iris 2 from sklearn.model_selection import train_test_split 3 #k临近算法 4 from sklearn.neighbors import KNeighborsClassifier 5 import numpy as np 6 import pandas as pd 7 def get数据(): 8 iris_dataset