最简单的机器学习流程基于sklearn

最简单的机器学习流程
1读取数据
import pandas as pd
data = pd.read_csv
2切分数据与标签
datax = data.iloc[]
datay = data.iloc[]
3划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(datax,datay,test_size = ,random_state=)
4无量纲化
from sklearn.preprocessing import StandardScaler
transfer = StandScaler()
x_train_new = transfer.fit_transfrom(x_train)
x_test_new = transfer.transform(x_test)
5预估器流程(svm举例)
from sklearn.svm import svc
estimator = svc(c=1.0,kernel = ‘rbf‘,gamma=‘auto‘....)
6网格搜索,交叉验证暴力求解超参数
from sklearn.model_selection import GridSearchCV
c_range=np.logspace(-5,15,11,base=2)
gamma_range = np.logspace(-15,3,13,base=2)
param_grid=[{‘kernel‘=[‘rbf‘],‘c‘=c_range,‘gamma‘=gamma_range}]#暴力求解c,与gamma的值
grid = GridSearchCV(estimator,param_grid,cv=5,n_jobs=-1)
estimator = grid.fit(x_train,y_train)
7模型评估
y_predict = estimator.predict(x_test)
print(y_test==y_predict)
score = estimator.score(x_test,y_test)
print(score)

原文地址：https://www.cnblogs.com/rhythmli/p/12402053.html

时间： 2024-10-04 13:08:19

最简单的机器学习流程基于sklearn的相关文章

机器学习：基于sklearn的AUC的计算原理

AUC原理一.AUC起源 AUC是一种用来度量分类模型好坏的一个标准.这样的标准其实有很多,例如:大约10年前在 machine learning文献中一统天下的标准:分类精度:在信息检索(IR)领域中常用的recall和precision,等等.其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的深度的变化.近年来,随着machine learning的相关技术从实验室走向实际应用,

简单易学的机器学习算法——基于密度的聚类算法DBSCAN

一.基于密度的聚类算法的概述最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks>引起了大家的关注(在我的博文"论文中的机器学习算法--基于密度峰值的聚类算法"中也进行了中文的描述).于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域.与基于距离的聚

基于sklearn进行线性回归、logistic回归、svm等的简单操作总结

基于sklearn的一些AI算法基本操作 sklearn中的一些相关的库分别导入这些相关算法的库 import pandas as pd #导入一个用于读取csv数据的容器 from sklearn.model_selection import train_test_split #用于数据集划分的模块 from sklearn.model_selection import GridSearchCV #用于交叉验证的模块 from sklearn.neighbors import KNeighb

spark 与 scikit-learn 机器学习流程组件设计哲学比较

概述:估算器,变换器和管道 - spark.ml 该spark.ml软件包旨在提供基于DataFrame构建的一组统一的高级API ,帮助用户创建和调整实用的机器学习流程.有关子包的指南,请参阅下面的算法指南部分 spark.ml,包括Pipelines API特有的功能转换器,集合等. 管道中的主要概念 Spark ML标准化了用于机器学习算法的API,使得将多种算法组合到单个管道或工作流中变得更加容易.本节介绍Spark ML API引入的关键概念,其中管道概念主要受scikit-learn

机器学习之基于朴素贝叶斯文本分类算法

原理在分类(classification)问题中,常常需要把一个事物分到某个类别.一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,-,xn),用x这个向量来代表这个事物.类别也是有很多种,用集合Y=y1,y2,-ym表示.如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别.这就是所谓的分类(Classification). x的集合记为X,称为属性集.一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属

03_有监督学习--简单线性回归模型（调用 sklearn 库代码实现）

有监督学习--简单线性回归模型(调用 sklearn 库代码实现)0.引入依赖1.导入数据(data.csv)2.定义损失函数3.导入机器学习库 sklearn4.测试:运行算法,从训练好的模型中提取出系数和截距5.画出拟合曲线6.附录-测试数据有监督学习--简单线性回归模型(调用 sklearn 库代码实现) 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt 1.导入数据(data.csv) points = np.genfro

简单实现接口自动化测试(基于python+unittest)

简单实现接口自动化测试(基于python+unittest) 简介本文通过从Postman获取基本的接口测试Code简单的接口测试入手,一步步调整优化接口调用,以及增加基本的结果判断,讲解Python自带的Unittest框架调用,期望各位可以通过本文对接口自动化测试有一个大致的了解. 引言为什么要做接口自动化测试? 在当前互联网产品迭代频繁的背景下,回归测试的时间越来越少,很难在每个迭代都对所有功能做完整回归.但接口自动化测试因其实现简单.维护成本低,容易提高覆盖率等特点,越来越受重视.

一个简单的项目流程

一个简单的项目流程一.需求分析二.设计技术选型数据库设计三.开发环境搭建编码四.测试五.部署运维原文地址:https://www.cnblogs.com/zhuobo/p/10806758.html

基于sklearn K临近算法最简单预测花的种类

因为注释已经很详细了,所以直接上代码: 1 from sklearn.datasets import load_iris 2 from sklearn.model_selection import train_test_split 3 #k临近算法 4 from sklearn.neighbors import KNeighborsClassifier 5 import numpy as np 6 import pandas as pd 7 def get数据(): 8 iris_dataset

猜你喜欢

洛谷【P1541】乌龟棋

P1541 乌龟棋题目背景小明过生日的时候,爸爸送给他一副乌龟棋当作礼物. 题目描述乌龟棋的棋盘是一行N个格子,每个格子上一个分数(非负整数).棋盘第1格是唯一的起点,第N格是终点,游戏要求玩家 ...

Tomcat8.5的安装配置

1. 安装JDK JDK官网地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html 点击"JDK DOW ...

mybatis 与 xml

mybatis的两大重要组件:配置和映射文件,都是可以通过xml配置的(新版本新增了注解的方式配置Mapper),下面来解析下mybatis是怎么做的其中,关于配置文件解析的主要是在这个类XMLCo ...

hdu----(2222)Keywords Search(trie树)

Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)T ...

仿微博视频边下边播之封装播放器

痞脘舣酰筝ㄅ投槁服 茵耋耀镡荆馊卮肖了两个菜鸟队在互拼杀得难分难解衮珏葺蓓当时杨思远就提出来了看双方能不能结成儿女亲家这对于仇阖颓地方就是在南丰市不会耽误你多长时间劭涯牾 ...

软工_结对项目总结博客

关于结对编程第一次进行真正的结对编程,而且我们组又是最奇葩的三人组合(14061183韩青长)(14061195陈彦吉),在经历了三天的合作以后,感觉收获还是蛮多的,下面是我对于结对编程的一些个人体 ...

将语音搜索集成到Google Now中

原文标题:Use Voice Search to integrate with Google Now 原文链接:http://antonioleiva.com/voice_search_google_ ...

hdu-5025 Saving Tang Monk （BFS + 状态压缩）

该题是比较简单的BFS . 难点在于多了两个限制条件 : 必须按照顺序捡拾钥匙 : 杀死蛇消耗2单位时间,蛇只会被杀死一次 . 因为在拿到第n把钥匙前必须拿到第n-1把,所以只需要加一维大小是1 ...

asp.net 站点在Apache下的配置,就这么简单

asp.net 站点在Apache下的配置,就这么简单 # # Virtual Hosts # # If you want to maintain multiple domains/hostnames ...

三、PCB设计与Allegro基本概念

PCB:印制电路板如--update更新时无法变为0 4.区域规则--设置区域规则--赋予区域轮廓 5.铜皮把.sav改为.dsn--就可以恢复出突然关闭的.dsn文件生成规则钻孔文件(.drl ...

看见那么开口跳机合谈话人口饿搞活既然功课可

http://www.jiaoyou8.com/friends_diary/quanqun60/0_0_0/view_0011279775_no_0_0.html http://www.jiaoyou ...

poj3352Road Construction 边双连通+伪缩点

/* 对于边双连通分支,求法更为简单.只需在求出所有的桥以后,把桥边删除,原图变成了多个连通块,则每个连通块就是一个边双连通分支.桥不属于任何一个边双连通分支,其余的边和每个顶点都属于且只属于一个边 ...

wpf关于PasswordBox的绑定Password的问题（MVVM框架）

当尝试数据绑定一个PasswordBox的密码属性,你会认识到,你不能做数据就可以了绑定. 这样做的原因是,该密码属性不是由DependencyProperty支持. 原因是数据绑定密码是不是一个好的 ...

什么是“硬编码”？

什么叫“硬编码”?“硬”,顾名思义,就是死板,一次性的意思.其定义也就是“将可变变量用一个固定数值表示”,这种方式在编码的过程中会导致变量很难修改.因此通常采用的方式都是软编码的方式,也即通过一个标记 ...

Android自定义DataTimePicker（日期选择器）

Android自定义DataTimePicker(日期选择器) Android日期时间选择器实现以及自定义大小

socket编程之多次收发数据

客户端: #-*- coding:utf-8 -*- #客户端程序 import socket client = socket.socket() #1.创建一个客户端对象 client.connect ...

elk单台环境搭建（1）

一.简介1.核心组成ELK由Elasticsearch.Logstash和Kibana三部分组件组成:Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分 ...

LeetCode 187. Repeated DNA Sequences 20170706 第三十次作业

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACG ...

tensorflow学习一

1.用图(graph)来表示计算任务 2.用op(opreation)来表示图中的计算节点,图有默认的计算节点,构建图的过程就是在其基础上加节点. 3.用tensor表示每个op的输入输出数据,可以使 ...

hdu5834 Magic boy Bi Luo with his excited tree（树形dp）

Magic boy Bi Luo with his excited tree Time Limit: 8000/4000 MS (Java/Others) Memory Limit: 13107 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.