复盘一篇讲sklearn库学习文章(上)

认识

sklearn 官网地址: https://scikit-learn.gor/stable/

从2007年发布以来, scikit-learn已成为重要的Python机器学习库, 简称sklearn, 支持包括分类, 回归, 降维和聚类等机器学习算法, 还包括了特征提取, 数据处理, 模型评估三大模块.

sklearn是Scipy的扩展, 建立在Numpy, Matplotlib..等库的基础上. 拥有完善的文档, 上手容易, API丰富, 同时封装了大量的机器学习算法, 且内置了大量数据集, 是入门的一个非常好的库哦

sklearn-机器学习

学习类型

有监督学习

  • 认识: 从成对的,已经标注的输入和输出经验数据作为一个输入进行学习, 用来预测结果, 是从用正确答案的例子中学习
  • 应用: 分类问题, 回归问题

无监督学习

  • 认识: 输入的数据没有标签,没有正确答案, 单纯从数据中找寻规律
  • 应用: 聚类问题, 降维问题

半监督学习

  • 介于之间, 增强学习

数据集

分类

  • 训练集: 用来训练模型的数据集 (50%以上的数据量)
  • 测试集: 用来测试模型的数据集 (25%)
  • 验证集: 调整超参数变量 (25%)

交叉验证

  • 认识: 将数据集分成N份, 用N-1份训练模型, 在另一块进行测试, 通常5折交叉验证.
  • 优点: 能充分利用数据, 提高模型效果

模型评估

  • 方差(variance)
  • 偏差(biass)
  • 偏差-方差均衡
    • 真阳性(TP): 正确识别目标
    • 假阳性(FP): 错误识别目标
    • 真阴性(TN): 正确识别非目标
    • 假阴性(FN): 错误识别非目标
  • 指标
    • 准确率(ACC) = (TP+TN) / (TP+TN+FP+FN)
    • 精确率(P) = TP / (FP+FN)
    • 召回率(R) = TP / (TP+FN)

通俗理解 : 关于准确率, 召回率, 精确率的小案例, 网上找的

说一个池塘里有1400条鲤鱼, 300只虾, 300只鳖 (即总数是2000). 现在呢, 我想去捞鲤鱼, 一网下去, 捞上来700条鲤鱼, 200只虾, 100只鳖, (即共捞起来总数是1000).

正确率: (捞起来的鲤鱼数 / 捞起来的总数) = 700 / (200 + 100 + 700) = 70%

召回率: (捞起来的鲤鱼数 / 总数中的鲤鱼数量) = 700 / 1400 = 50%

二分类最能说明, 后面单独整一篇关于率的吧..

sklearn 官方文档结构

sklearn库的算法主要有四类: 分类, 回归, 聚类, 降维
什么线性, 决策树, SVM, KNN, 随机森林, Adaboost, 随机梯度下降, Bagging, ExtraTrees...都有的哈

  • preprocession: 数据预处理模块
  • impute: 缺失值处理模块
  • feature_selection: 特征选择模块
  • decomposition: 降维算法模块

slearn快速使用

传统的机器学习任务通常的流程是: 获取数据->数据预处理->特征工程(选择, 向量化等)->模型训练->模型评估->预测

先整一个学统计学时的经典数据集鸢尾花的分类, 共150个样本, 包括4个特征变量和1个类别变量.

特征变量

  • sepal length: 花萼长度
  • sepal width: 花萼宽度
  • petal length: 花瓣长度
  • petal width: 花瓣宽度
  • 类别: iris-setosa(山鸢尾), iris-versicolor(变色鸢尾花), iris-virginica (维吉尼亚鸢尾花)的哪一种
from sklearn import datasets  # 用内置的数据源
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 1. 获取数据
# 数据集是 json, {data:[[]], target_names:xxx, xxx}
iris = datasets.load_iris()
# 2. 特征工程 - 获取特征变量和目标变量
iris_X = iris.data
iris_y = iris.target

print("数据准备+特征工程--")
print('X_shape:',iris_X.shape, 'y_shape:',iris_y.shape) # 查看维度
print('y_target:', iris_y)

# 2. 特征工程 - 划分测试集和训练集
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.25)

# 3. 训练模型
print("开始进行训练---")
knn = KNeighborsClassifier()  # 实例对象
knn.fit(X_train, y_train)

print("模型参数:", knn.get_params())

# 4. 模型评价

print("真实值:", y_test)
print("预测值:", knn.predict(X_test))

score = knn.score(X_test, y_test)
print("预测得分为:", round(score, 3))

数据准备+特征工程--
X_shape: (150, 4) y_shape: (150,)
y_target: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
开始进行训练---
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')
模型参数: {'algorithm': 'auto', 'leaf_size': 30, 'metric': 'minkowski', 'metric_params': None, 'n_jobs': None, 'n_neighbors': 5, 'p': 2, 'weights': 'uniform'}
真实值: [0 1 0 2 1 1 0 0 2 0 2 2 0 1 1 2 0 1 1 0 0 0 2 0 1 0 1 1 2 1 1 0 1 1 1 1 1
 2]
预测值: [0 1 0 2 1 2 0 0 2 0 2 2 0 1 1 2 0 1 1 0 0 0 2 0 1 0 1 1 2 1 2 0 2 1 1 1 1
 2]
预测得分为: 0.921

先简单引入, 下篇就是详情啦

原文地址:https://www.cnblogs.com/chenjieyouge/p/11741441.html

时间: 2024-11-07 18:58:15

复盘一篇讲sklearn库学习文章(上)的相关文章

复盘一篇浅谈KNN的文章

认识-什么是KNN KNN 即 K-nearest neighbors, 是一个hello world级别, 但被广泛使用的机器学习算法, 中文叫K近邻算法, 是一种基本的分类和回归方法. KNN既可用来分类, 也可用于回归, 不过我还是觉得分类好一些哦 KNN的核心思想是, 如果一个样本, 在特征空间中的K个最相邻的样本中的大多数属于某一个类别, 则该样本也属于该类别, 即"近朱者赤, 近墨者黑". 这样子兄嘚, 最通俗一点, 每个数据其实就是一个向量, 画成图就是一个点嘛, 每个样

Guava库学习:学习Guava Files系列(二)

原文地址:Guava库学习:学习Guava Files系列(二) 上一篇,Guava库学习:学习Guava Files系列(一)中,我们简单的学习了使用Files进行文件的读写等常用操作,本篇我们继续进行Guava Files系列的学习.     InputSupplier 和 OutputSupplier Guava提供了 InputSupplier 和 OutputSupplier接口,用于提供InputStreams/Readers 或OutputStreams/Writers的处理.我们

Guava库学习:学习Guava Cache(六)CacheStats

原文地址:Guava库学习:学习Guava Cache(六)CacheStats 上一篇,Guava库学习:学习Guava Cache(五)CacheLoader 中, 我们学习了CacheLoader抽象类,主要是其中的from方法,接收一个Function或Supplier,返回一个CacheLoader实 例,至此,我们已经了解了如何创建一个强大的缓存机制,接下来,我们想要收集缓存执行或使用后的一些统计信息,又该怎么做呢?现在开始本篇,Guava Cache CacheStats的学习.

近200篇机器学习&深度学习资料分享

编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.并且原文也会不定期的更新.望看到文章的朋友能够学到很多其它. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍非常全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室

Java 学习文章汇总

目前JAVA可以说是产业界和学术界最热门的语言,许多人都很急切想把JAVA学好. 但学习是需要步骤的,除非像电影中演的那样,能够把需要的专业技巧下载到脑海:主角只花了几秒下载资料,就马上具备飞行员的技巧,或是武侠小说中的运功传送内力的方式,否则花上一段时间苦学是少不了的.花时间,不打紧,就怕方法错误,事倍功半. java 学习文章推荐.java学习线路.java 知识图谱. HTML5 微数据 RDFa/微格式 使用 jQuery 的 Autocomplete 插件实现input输入提示功能 创

函数库学习入门指引

函数库学习入门指引 转自:http://www.cnblogs.com/bangerlee/archive/2011/08/31/2161347.html 2011-08-31 21:58 by bangerlee, 2875 阅读, 0 评论, 收藏, 编辑 在学习某一函数库的时候,我们经常做的第一件事, 就是把该函数库的源码下载回来进行编译和安装(一般是这三步:./configure -> make -> make install),然后写一些调用库函数的小用例,看其能否正常运行以及运行后

【python标准库学习】re模块

1.什么是re 正则表达式一门相对通用的语言,在python中也有对正则表达式的支持,那就是的内置re模块.正则表达式就是一系列的规则去匹配字符串然后进行相应的操作,这些规则网上一搜一大片,而re则是运用正则表达式来提供一系列的功能强大的接口让我们来调用.通常我们在对日志文件进行操作的时候会对正则表达式运用的比较多来得到我们希望得到的数据. 2.python中的转义符 正则表达式中通常用反斜杠'\'来代表转义,'\d'代表数字等,但是python本身也是通过反斜杠'\'来表示转义,所以就和正则表

深度学习文章3:将自己的图像数据转换成caffe需要的db(leveldb/lmdb)文件

将自己的图像数据转换成caffe需要的db(leveldb/lmdb)文件 在搭建好caffe环境之后,我们往往需要对自己的图像数据进行训练/测试,我们的图像数据往往时图片文件,如jpg,jpeg,png等,然而在caffe中我们需要使用的数据类型是lmdb或leveldb,例如:在之前测试MNIST数据集< 深度学习文章2:使用MNIST数据集验证Caffe是否安装成功 >时,我们运行脚本create_mnist.sh就是生成对应的db文件,运行后在~/caffe/examples/mnis

《VS2010(X64)&amp;PCL点云库学习》Part 2 A simple test of PCL in MFC

<VS2010(X64)&PCL点云库学习>Part 2 A simple test of PCL in MFC                                                                             本文主要介绍如何将PCL的控制台程序移植到MFC中,基本内容还是按照上一篇PCL配置博文来继续讲解的. 1.新建MFC程序 2.应用程序类型对话框中,勾选基于对话框,一直下一步,或者直接点击完成. 3.配置环境:主要包括添加