Python机器学习及实践 知识总结

机器学习中的监督学习的任务重点在于,根据已有的经验知识对未知样本的目标/标记进行预测。

根据目标预测变量的类型不同,我们把监督学习的任务大体分为分类学习与回归预测两类。

监督学习

任务的基本架构流程:1首先准备训练数据 可以是文本 图像 音频等;2然后抽取所需要的特征,形成特征向量;3接着,把这些特征向量连同对应的标记/目标一并送入学习算法中,训练出一个预测模型;4然后,采用同样的特征方法作用于新的测试数据,得到用于测试的数据的特征向量;5最后,使用预测模型对这些待预测的特征向量进行预测并得到结果。

分类学习(二分类 多类分类 多标签分类(判断一个样本是否同时属于多个不同类别))

线性分类器 假设特征与分类结果存在线性关系的模型  通过计算每个维度的特征与各自权重的乘积来帮助类别决策。

①f=wx+b(向量表示形式)

二分类问题希望f∈{0,1} 因此需要一个函数把先得到的f∈R映射到(0,1)于是我们想到了②Logistic函数

整合①②我们得到经典的线性分类器模型行Logistic Regression

一种快速估计的算法 随机梯度上升法

sklearn中

Logistic Regression中解析参数的方式为精确计算 SGDClasifier解析参数的方式为梯度法估计

前者计算时间长 模型的性能高 后者相反

10万量机以上的数据 考虑到用时 建议用后者

支持向量机(分类) 原理:根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。

我们把可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”(二维特征中 两个空间间隔最小的两个不同类别的数据的数据点)

朴素贝叶斯 构造基础是贝叶斯理论

抽象来说朴素贝叶斯分类器会单独思考每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测,因此,这个模型的数学基本假设是:各个维度特征被分类的条件概率之间是相互独立的

在假设条件下 每一种特征可能的取值只能有2种 那么只需估计2kn个参数 即 p(x1=0|y=c1)p(x1=1|y=c1),。。。,p(xn=1|y=ck)

k近邻分类 随着不同会取得不同的分类效果 无参数模型 非常高的计算复杂度和内存消耗 时间代价大

决策树 考虑特征节点的选取顺序 :信息熵 基尼不存性

集成模型(分类)

随机森林分类器

梯度提升决策树

线性回归器 LinearRegression SGDRegressor

支持向量机回归

k近邻回归 k个点 算数平均 /距离差异进行加权平均

回归树

集成模型(回归)

普通随机森林

提升树模型

极端随机森林:在每当构建一棵树的分裂节点的时候 不会任意地选取特征而是先随机收集一部分特征 然后利用信息熵和基尼不存性等指标挑选最佳的节点特征

无监督学习经典模型

无监督学习着重于发现数据本身的分布特点 无监督学习不需要对数据进行标记 节省大量人力 也让数据的规模 变得不可限量

1 发现数据群落 数据聚类 也可以寻找 离群样本

2 特征降维 保留数据具有区分性的低维特征

这些都是在海量数据处理中非常实用的技术

数据聚类

K均值算法(预设聚类的个数 不断更新聚类中心 迭代 ,是所有数据点到其所属聚类中心距离平方和趋于稳定)

过程

①首先 随机布设K个特证空间内的点作为初始的聚类中心

②然后 对于根据每个数据的特征向量 从K个聚类中心中 寻找距离最近的一个 并且把该数据标记为从属与这个聚类中心

③接着 在所有数据都被标记了聚类中心之后 根据这些数据新分配的类簇 重新对K个聚类中心做计算

④如果一轮下来 所有数据从属的聚类中心与上一次的分配的类簇没有变化 那么迭代可以 停止 否则回到②继续循环

性能测评

①被用来评估的数据本身带有正确的类别信息 使用ARI ARI指标与分类问题中计算准确性的方法类似,同时也兼顾到了类簇无法和分类标记一一对应的问题

②如果被用于评估的数据没有所属类别,那么我们习惯使用轮廓系数来度量聚类结果的质量。轮廓系数同时兼顾了聚类的凝聚度和分离度

用于评估聚类的效果并取值范围为[-1,1]。轮廓系数值越大,表示聚类效果越好。

K聚类算法两大缺陷 ①容易收敛局部最优解 ②需要预先设定簇的数量

使用肘部观察法来粗略的预估相对合理的类簇个数

特征降维

1实际项目中遭遇特征维度非常之高的训练样本,而往往又无法凭借自己的领域知识人工构建有效特征

2肉眼只能观测三个维度的特征 降低数据维度 同时也维数据展现提供了可能

主成分分析(PCA分析)

我们可以把PCA当作特征选择,只是和普通理解的不同,这种特征选择是首先把原来的特征空间做了映射,使得新的映射后特征空间的数据彼此正交。

这样一来,我们通过主成分分析就尽可能保留下具有区分性的低纬数据特征。

特征提升(特征抽取和特征筛选)

特征抽取(数据->数据特征向量)

所谓特征抽取 就是逐条将原始数据转化维特征向量的形式 这个过程同时涉及对数据特征的量化表示

原始数据 :

      1数字化的信号数据(声纹,图像)

      2还有大量符号化的文本

①我们无法直接将符号化的文字本身用于计算任务 而是需要通过某些处理手段 ,预先将文本量化为特征向量

有些用符号表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。

这时我们使用DictVectorizer 对特征进行抽取和向量化

DictVectorizer处理字典存储的结构化的数据结构

DiceVectorizer 对特征的处理方式(字典):

1类别行 使用0/1二值方式

2数字型 维持原始数值即可

②另外一些文本数据更为原始 知识一系列的字符串 我们采用词袋法对特征进行抽取和向量化

词袋法的两种计算方式

CountVectorizer

TfidVectorizer

(a.)CountVectorizer——每个词(Term)在该训练文本中出现的频率(Term Frequency);

(b.)TfidfVectorizer——除了考量某一词汇在当前文本中出现的频率(Term Frequency)外,还要关注包含这个词汇的文本条数的倒数(Inverse Document Frequency)。训练文本的条目越多,TfidfVectorizer这种特征量化的方式就更有优势,因为计算词频(Term Frequency)的目的在于找出对所在文本的含义更有贡献的重要词汇

如果一个词几乎在每篇文章中都出现,说明这个词是常用词,不会帮助模型对文本进行分类。此外,在每条文本中都出现的常用词汇成为停用词(Stop Words),停用词在文本特征抽取时需要过滤掉。

特征筛选(保留有限的良好的数据特征组合)

良好的数据特征组合不需要太多,便可以使模型的性能表现突出。

冗余的特征不会影响到模型的性能,不过却使得CPU的计算做了无用功

主成分分析主要用于去除多余的那些线性相关的特长组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。而不良的特征自然会降低模型的精度。

特征筛选与PCA 这类通过选择主成分进行对特征进行重建的方法略有区别:对于PCA而言,我们经常无法解释重建之后的特征;

但是特征筛选不存在对特征值的修改 而更加侧重于寻找那些对模型的性能提升较大的少量特征。

模型正则化

欠拟合与过拟合

模型的泛化能力:模型对未知数据的预测能力

拟合:机器学习模型在训练的过程中,通过更新参数,使模型不断契合可观测数据(训练集)的过程

存在过拟合和欠拟合两种模型的状态

正则化方法(L1正则化和L2正则化)

正则化的目的在于提高模型在未知测试数据上的泛化力,避免参数过拟合

因此,正则化的常见方法都是在原模型优化目标的基础上,增加对参数的惩罚项

L1正则化是让参数向量中的许多元素趋向于0,让有效特征变得稀疏,对应的L1正则化模型称为Lasso。 
L2正则化是让参数向量中的大部分元素都变得很小,压制了参数之间的差异性,对应的L2正则化模型称为Ridge

模型检验

没有测试集的情况下 ,我们把现有的数据进行采样分割 成 训练集和开发集(验证集)

模型校验方式 留一验证 交叉验证

留一验证(用于早期)

随机采样一定比例作为训练集 ,留下的作为验证集 通常比例为7 3  但是由于对于验证集合随机采样的不确定性 使模型的性能不稳定

交叉验证(留一验证的高级版本)

多次进行留一验证 后求得平均结果

超参数搜索

网格搜索

对多种超参数组合的空间进行暴力搜索。每一套超参数组合被带入到学习函数中作为新的模型,并且为了比较新模型之间的性能,每个模型都会采用交叉验证的方法在多组相同的训练集和开发数据集下进行评估

并行搜索

用cpu所有的核训练 即并行的方式

原文地址:https://www.cnblogs.com/IAMzhuxiaofeng/p/9026067.html

时间: 2024-10-30 05:02:39

Python机器学习及实践 知识总结的相关文章

《Python机器学习及实践:从零开始通往Kaggle竞赛之路》

<Python 机器学习及实践–从零开始通往kaggle竞赛之路>很基础 主要介绍了Scikit-learn,顺带介绍了pandas.numpy.matplotlib.scipy. 本书代码基于python2.x.不过大部分可以通过修改print()来适应python3.5.x. 提供的代码默认使用 Jupyter Notebook,建议安装Anaconda3. 最好是到https://www.kaggle.com注册账号后,运行下第四章的代码,感受下. 监督学习: 2.1.1分类学习(Cla

Python机器学习及实践 课后小题

目录 第二章 2.3章末小结 @(Python机器学习及实践-----从零开始通往Kaggle竞赛之路) 第二章 2.3章末小结 1 机器学习模型按照使用的数据类型,可分为监督学习和无监督学习两大类. 监督学习主要包括分类和回归的模型. 分类:线性分类,支持向量机(SVM),朴素贝叶斯,k近邻,决策树,集成模型(随机森林(多个决策树)等). 回归:线性回归,支持向量机(SVM),k近邻,回归树,集成模型(随机森林(多个决策树)等). 无监督学习主要包括:数据聚类(k-means)和数据降维(主成

PYTHON机器学习及实践pdf

下载地址:网盘下载 内容简介  · · · · · · 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习.数据挖掘与自然语言处理工具,如Scikitlearn.NLTK.Pandas.gensim.XGBoost.Google Tensorflow等. 全书共分4章.第1章简介篇,介绍机器学习概念与Python编程知识:第2章基础篇,讲述如何使用Scikit

Python机器学习及实践+从零开始通往Kaggle竞赛之路

内容简介 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习.数据挖掘与自然语言处理工具,如Scikitlearn.NLTK.Pandas.gensim.XGBoost.Google Tensorflow等. 全书共分4章.第1章简介篇,介绍机器学习概念与Python编程知识:第2章基础篇,讲述如何使用Scikitlearn作为基础机器学习工具:第3章进阶篇

[python机器学习及实践(6)]Sklearn实现主成分分析(PCA)

1.PCA原理 主成分分析(Principal Component Analysis,PCA), 是一种统计方法.通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分. PCA算法: 2.PCA的实现 数据集: 64维的手写数字图像 代码: #coding=utf-8 import numpy as np import pandas as pd from sklearn.decomposition import PCA from matplotlib imp

分享《自然语言处理理论与实战》PDF及代码+唐聃+《深入浅出Python机器学习》PDF及代码+段小手+《深度学习实践:计算机视觉》PDF+缪鹏+《最优化理论与算法第2版》高清PDF+习题解答PDF+《推荐系统与深度学习》PDF及代码学习

<自然语言处理理论与实战>高清PDF,362页,带书签目录,文字可以复制:配套源代码.唐聃等著. <大数据智能互联网时代的机器学习和自然语言处理技术>PDF,293页,带书签目录,文字可以复制,彩色配图.刘知远等著.  下载: https://pan.baidu.com/s/1waP6C086-32_Lv0Du3BbNw 提取码: 1ctr <自然语言处理理论与实战>讲述自然语言处理相关学科知识和理论基础,并介绍使用这些知识的应用和工具,以及如何在实际环境中使用它们.由

机器学习资料《分布式机器学习算法理论与实践》+《白话机器学习算法》+《Python机器学习基础教程》

机器学习正在迅速改变我们的世界.我们几乎每天都会读到机器学习如何改变日常的生活. 人工智能和大数据时代,解决最有挑战性问题的主流方案是分布式机器学习! <分布式机器学习:算法.理论与实践>电子书资料全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向. 我认为第3章到第8章是核心,讲解分布式机器学习的框架及其各个功能,分别针对其中的数据与模型划分模块.单机优化模块.通信模块.数据与模型聚合模块加以介绍.最有用的是第9章,学习由分布式机器学习框架中不同选项所组合

分享《Python机器学习实践指南》(高清中文版PDF+高清英文版PDF+源代码)

下载:https://pan.baidu.com/s/11dGldpITOoUUJmS9eD5ENw Python机器学习实践指南(高清中文版PDF+高清英文版PDF+源代码) 中文和英文两版对比学习, 带目录书签,可复制粘贴:讲解详细并配有源代码. 其中,高清中文版如图: 原文地址:http://blog.51cto.com/3215120/2301528

分享《Python机器学习实践指南》+PDF+源码+Alexanfer T.Combs+黄申

下载:https://pan.baidu.com/s/1nb-Q7MtQ2dfBbx2Dir-rQA 更多资料分享:http://blog.51cto.com/14087171 Python机器学习实践指南(高清中文版PDF+高清英文版PDF+源代码) 高清中文版PDF,268页,带目录书签,彩色配图,文字可复制粘贴: 高清英文版PDF,324页,带目录书签,彩色配图,文字可复制粘贴: 中文和英文两版对比学习: 讲解详细并配有源代码. 其中,高清中文版如图: 原文地址:http://blog.5