sklearn简介

sklearn

机器学习的工具箱

sklearn功能模块

分类: 识别某个对象属于哪个类别------垃圾邮件监测, 图像识别

回归: 预测与对象相关联的连续值属性------>股价

聚类: 将相似对象自动分组------>客户细分, 分组实验结果

降维: 减少要考虑的随机变量的数量------>可视化

模型选择: 比较, 验证, 选择参数和模型------>通过参数调整提高精度

预处理: 特征提取和归一化------>把输入数据转换为机器学习算法可用的数据

sklearn统一API

sklearn使用地图

classification: 分类  regression: 回归  clustering: 聚类  demension reduction: 降维

分类:

SVC: 支持向量机--->通过升维划分出数据集的高维线性边界(高维线性边界降维得出低维的各种曲线)

KNeighbors: K近邻

LR: 逻辑回归--->将数据集回归到标签, 而不是回归成一条直线

Naive Bayes: 朴素贝叶斯

回归:

Lasso

ElasticNet

SVR

聚类:

KMeans

降维:

PCA

sklearn学习路线

1. 快速入门

  sklearn一般流程: 数据获取, 数据预处理,  模型训练, 模型评估, 模型优化

2. 特征工程

  数据的获取, 数据预处理, 特征的提取, 特征的选择

3. 算法工程

  模型的训练, 模型的评估, 模型的优化

原文地址:https://www.cnblogs.com/draven123/p/11407865.html

时间: 2024-11-02 02:03:23

sklearn简介的相关文章

python sklearn库实现逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具 让每个人能够在复杂环境中重复使用 建立NumPy.Scipy.MatPlotLib之上 代

Python3《机器学习实战》学习笔记

运行平台: Windows Python版本: Python3.x IDE: Sublime text3 一 简单k-近邻算法 1 k-近邻法简介 2 距离度量 3 Python3代码实现 31 准备数据集 32 k-近邻算法 33 整体代码 二 k-近邻算法实战之约会网站配对效果判定 1 实战背景 2 准备数据数据解析 3 分析数据数据可视化 4 准备数据数据归一化 5 测试算法验证分类器 6 使用算法构建完整可用系统 三 k-近邻算法实战之sklearn手写数字识别 1 实战背景 2 Skl

LAD线性判别模型简介及sklearn参数

本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA. 1.LDA简介 LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用.LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的.这点和PCA不同.PCA是不考虑样本类别输出的无监督降维技术.LDA的思想可以用一句话概括,就是"投影后类内方差最小,类间方差最大".我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽

Windows下sklearn源码安装

简介 在Windows下编译sklearn源码,主要注意二点: 编译环境的搭建 编译顺序 编译环境的搭建 如果环境没有搭建好,最常见的报错,就是"error: Unable to find vcvarsall.bat" 以Python 3.5 为例,在默认安装VisualStudio时,通常没有选择Python tools这一项,因而,重新安装VisualStudio,选择自定义,然后勾选以下选项,如图: 编译顺序 编译sklearn源码 python setup.py build_e

sklearn学习笔记(一)

简介   自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块.  sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率.  sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

[转]使用sklearn进行集成学习——理论

转:http://www.cnblogs.com/jasonfreak/p/5657196.html 目录 1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradient Boosting 4.1 拟合残差 4.2 拟合反向梯度 4.2.1 契机:引入损失函数 4.2.2 难题一:任意损失函数的最优化 4.2.3 难题二:无法对测试样本计算反向梯度 4.

利用scikit-learn进行机器学习简介

利用scikit-learn进行机器学习简介 Sectioncontents: 在这部分,我们引入利用scikit-learn进行机器学习的常用单词,并给出一些简单的学习例子. 机器学习:问题设置 一般而言,一个学习问题处理一组包含n个样本的数据集,然后预测未知数据的属性.如果每个样本不止有一个数据,例如多维条目(又叫做多维数据),这种情况被称为拥有多组属性或特征. 我们可以将学习问题氛围几个大类: 监督学习:这类学习中数据包含我们想要预测的附加属性,这个问题可以被分为分类和回归. 分类问题:样

sklearn学习笔记之开始

简介 ??自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块.??sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率.??sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

机器学习算法简介

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:吴懿伦 导语: 本文是对机器学习算法的一个概览,以及个人的学习小结.通过阅读本文,可以快速地对机器学习算法有一个比较清晰的了解.本文承诺不会出现任何数学公式及推导,适合茶余饭后轻松阅读,希望能让读者比较舒适地获取到一点有用的东西. 引言 本文是对机器学习算法的一个概览,以及个人的学习小结.通过阅读本文,可以快速地对机器学习算法有一个比较清晰的了解.本文承诺不会出现任何数学公式及推导,适合茶余饭后轻松阅读,希望能让读者比较舒适地获取到