sklearn简介

sklearn

机器学习的工具箱

sklearn功能模块

分类: 识别某个对象属于哪个类别------垃圾邮件监测, 图像识别

回归: 预测与对象相关联的连续值属性------>股价

聚类: 将相似对象自动分组------>客户细分, 分组实验结果

降维: 减少要考虑的随机变量的数量------>可视化

模型选择: 比较, 验证, 选择参数和模型------>通过参数调整提高精度

预处理: 特征提取和归一化------>把输入数据转换为机器学习算法可用的数据

sklearn统一API

sklearn使用地图

classification: 分类　　regression: 回归　　clustering: 聚类　　demension reduction: 降维

分类:

SVC: 支持向量机--->通过升维划分出数据集的高维线性边界(高维线性边界降维得出低维的各种曲线)

KNeighbors: K近邻

LR: 逻辑回归--->将数据集回归到标签, 而不是回归成一条直线

Naive Bayes: 朴素贝叶斯

回归:

Lasso

ElasticNet

SVR

聚类:

KMeans

降维:

PCA

sklearn学习路线

1. 快速入门

　　sklearn一般流程: 数据获取, 数据预处理, 模型训练, 模型评估, 模型优化

2. 特征工程

　　数据的获取, 数据预处理, 特征的提取, 特征的选择

3. 算法工程

　　模型的训练, 模型的评估, 模型的优化

原文地址：https://www.cnblogs.com/draven123/p/11407865.html

时间： 2024-11-02 02:03:23

sklearn简介的相关文章

python sklearn库实现逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy.Scipy.MatPlotLib之上代

Python3《机器学习实战》学习笔记

运行平台: Windows Python版本: Python3.x IDE: Sublime text3 一简单k-近邻算法 1 k-近邻法简介 2 距离度量 3 Python3代码实现 31 准备数据集 32 k-近邻算法 33 整体代码二 k-近邻算法实战之约会网站配对效果判定 1 实战背景 2 准备数据数据解析 3 分析数据数据可视化 4 准备数据数据归一化 5 测试算法验证分类器 6 使用算法构建完整可用系统三 k-近邻算法实战之sklearn手写数字识别 1 实战背景 2 Skl

LAD线性判别模型简介及sklearn参数

本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA. 1.LDA简介 LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用.LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的.这点和PCA不同.PCA是不考虑样本类别输出的无监督降维技术.LDA的思想可以用一句话概括,就是"投影后类内方差最小,类间方差最大".我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽

Windows下sklearn源码安装

简介在Windows下编译sklearn源码,主要注意二点: 编译环境的搭建编译顺序编译环境的搭建如果环境没有搭建好,最常见的报错,就是"error: Unable to find vcvarsall.bat" 以Python 3.5 为例,在默认安装VisualStudio时,通常没有选择Python tools这一项,因而,重新安装VisualStudio,选择自定义,然后勾选以下选项,如图: 编译顺序编译sklearn源码 python setup.py build_e

sklearn学习笔记（一）

简介自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块. sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率. sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

[转]使用sklearn进行集成学习——理论

转:http://www.cnblogs.com/jasonfreak/p/5657196.html 目录 1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradient Boosting 4.1 拟合残差 4.2 拟合反向梯度 4.2.1 契机:引入损失函数 4.2.2 难题一:任意损失函数的最优化 4.2.3 难题二:无法对测试样本计算反向梯度 4.

利用scikit-learn进行机器学习简介

利用scikit-learn进行机器学习简介 Sectioncontents: 在这部分,我们引入利用scikit-learn进行机器学习的常用单词,并给出一些简单的学习例子. 机器学习:问题设置一般而言,一个学习问题处理一组包含n个样本的数据集,然后预测未知数据的属性.如果每个样本不止有一个数据,例如多维条目(又叫做多维数据),这种情况被称为拥有多组属性或特征. 我们可以将学习问题氛围几个大类: 监督学习:这类学习中数据包含我们想要预测的附加属性,这个问题可以被分为分类和回归. 分类问题:样

sklearn学习笔记之开始

简介 ??自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块.??sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率.??sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

机器学习算法简介

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:吴懿伦导语: 本文是对机器学习算法的一个概览,以及个人的学习小结.通过阅读本文,可以快速地对机器学习算法有一个比较清晰的了解.本文承诺不会出现任何数学公式及推导,适合茶余饭后轻松阅读,希望能让读者比较舒适地获取到一点有用的东西. 引言本文是对机器学习算法的一个概览,以及个人的学习小结.通过阅读本文,可以快速地对机器学习算法有一个比较清晰的了解.本文承诺不会出现任何数学公式及推导,适合茶余饭后轻松阅读,希望能让读者比较舒适地获取到