机器学习数学系列(1):机器学习与数学基础知识

目录:

机器学习基础:

  机器学习的分类与一般思路

微积分基础:

  泰勒公式,导数与梯度

概率与统计基础:

  概率公式、常见分布、常见统计量

线性代数基础:

  矩阵乘法的几何意义

这是一张非常著名的图,请仔细挖掘其信息量。以期它在整体上指引我们的学习。

1 机器学习基础

1.1 机器学习分类

有监督学习、无监督学习、半监督学习的概念自行了解一下,不再赘述,简单贴3幅图,自行比对。

     

1.2 机器学习的一般思路

得分函数:

损失的函数的最优化问题:

(左)非凸函数                                                          (右)凸函数

与实际情况的误差即损失。损失函数可以看做是得分函数的函数。我们所希望的结果是找到一个得分函数,使得它最终的损失函数是最小的,而这个最小值所对应的得分函数,或者说此时的得分函数所对应的那个权重,即上图所示的θ值,就是我们所希望的最好的机器学习算法的结果。一言以蔽之,就是通过对损失函数对权重进行修改。那么就转化为优化问题。接下来的微积分就是怎么去求解这个最优化问题。

贴图一张:

再附图一张:算法一览

2 高等数学回顾:

2.1 微积分之:两边夹定理/夹逼定理(了解即可)

简单地说,导数就是曲线的斜率,是曲线变化快慢的反应。

二阶导数是斜率变化快慢的反应,表征曲线的凹凸性。

  在GIS中,往往一条二阶导数连续的曲线,我们称之为“光顺”的。

  还记得高中物理老师时常念叨的吗:加速度的方向总是指向轨迹曲线凹的一侧。

2.2 常用函数的导数(非常非常非常基础了!!!):

Taylor公式-Maclaurin公式:

2.3 方向导数:

2.4 梯度(梯度是一个向量,导数是一个标量。):

2.5 凸函数的概念:

考虑Jensen inequality(琴生不等式)。

2.6 凸函数的判定:

即:一元二阶可微函数在区间上是凸的,当且仅当它的二阶导数是非负的。

2.7 凸函数的表述:

意义:可以在确定函数的凹凸性之后,对函数进行不等式替换。

2.8 凸优化:即凸函数的最优化理论。

如果你能够把一个数学问题变成一个凸优化问题,那这个问题就可以认为是解决了,哪怕你硬算也能找到其最优解。因凸优化理论现已及其成熟而且方便。

3 概率与统计基础

3.1 概率公式

各概率公式切忌硬看不思考,一定要通过生动的方式去理解。

3.2 常见的概率分布

3.3 概率与统计的关注点

在大学概率与统计是一门课,实质上,二者是两种不同的观察视角。

概率论问问题的方式:根据是否已知整体进行区分

  

概率问问题的方式是:你已经知道桶里面有白球和黑球,你现在从白球和黑球里面抓出一把,你判断你这一把里面是白球或黑球的概率。这是,已知总体,判断抽样出来的结果。

数理统计问问题的方式:统计问题是概率问题的逆向工程

  

而更多的情况是,你根本不知道桶里面有多少黑球多少白球,你只能从中抽取一小部分,来看这一小部分里白球和黑球的比例,然后基于求得的比例,再反推桶里面黑球和白球的总体比例。以上,这是两种不同的思路。

然后再看下面这张图,这个就很有意思了:

概率统计与机器学习的关系(二者思维很像,紧密交织在一起):

预测即是求取概率,请认真思考片刻。。。so,得出结论:概率统计的问题和机器学习学习问题是天然相关的,如果你不了解概率与统计问题,那么只机器学习的第一步抽样过程,很可能就会抽错,抽错了样本,学出来的算法必然是错误的算法,这个错的算法在未知的数据上预测出来的结果肯定是非常差的。这就是一个非常大的坑,很多机器学习初学者,不了解机器学习与统计的关系,而直接去硬套算法,得出的效果是非常不好的。问题不在于对算法的了解,而在于对统计的一些概念,以及对抽样的一些方法的了解的缺失。

概率统计与机器学习的关系:

  概率统计的是分布,机器学习训练出来的是模型,模型可能包含了很多分布。

  训练与预测过程的一个核心评价指标就是模型的误差。

  误差本身就可以是概率的形式,与概率紧密相关。

  对误差的不同定义方式就演化成了不同损失函数的定义方式。

  机器学习是概率统计的进阶版本(不严谨的说法)

3.4 重要统计量

都是描述全局(整体)统计量

  期望

  方差

  协方差

3.4.1 期望

3.4.2 方差

3.4.3 协方差

机器学习比较多用协方差。期望、方差全部是一个随机变量,而协方差是评价两个随机变量的线性关系,请注意只能评价线性关系,非线性关系协方差是评价不出来的。

我们看定义里的公式:X-E(X)、Y-E(Y)这两部分,随机变量减去随机变量的期望,这其实就是一个去均值化的过程,而这个去均值化的过程实质上就是我们在机器学习里面进行数据预处理工作里面所包含的一个过程。所以求协方差的同时,就把数据预处理的工作给做了。然后减完均值之后,将二者进行内积,这其实可以理解成将我们的特征进行数据预处理之后对应的向量的几何的内积。把这层几何意义理解清楚了,看很多公式会感觉轻松而通透。

还有一点,你的协方差如果同时除以X的标准差和Y的标准差,得出来的结果叫做相关系数。它的几何意义是:特征去均值化之后的向量之间的夹角(的cos值)。联想将两个向量的内积除以两个向量的模长,得到的就是两向量的夹角的cos值。这个cos值就是相关系数。这个相关系数是评价特征间线性相关性的一个指标。所以在机器学习的一些模块里,通过计算,会得到一个相关性矩阵,这个矩阵就是很好的评价指标。

相关系数(值在-1到+1之间):

去均值化是机器学习里面一个比较重要的预处理方法,它能够帮助更加快捷、方便,也更加准确地求出结果。

下面进入矩阵分析和线性分析的这套思路:

4 线性代数基础

4.1 A*x的几何意义

矩阵绝不是把一堆数用括号括起来!

4.2 SVD(奇异值分解)算法---机器学习里面一个非常重要的降维算法

4.3 矩阵乘法在计算中的优势

将很多for循环写成矩阵或者向量乘法的形式。

矩阵计算模块在底层有优化。

Numpy进行矩阵运算很快。

原文地址:https://www.cnblogs.com/ariel-dreamland/p/8744032.html

时间: 2024-11-10 08:35:48

机器学习数学系列(1):机器学习与数学基础知识的相关文章

机器学习数学|偏度与峰度及其python实现

机器学习中的数学 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处 本博客为七月在线邹博老师机器学习数学课程学习笔记 矩 对于随机变量X,X的K阶原点矩为 \[E(X^{k})\] X的K阶中心矩为 \[E([X-E(X)]^{k})\] 期望实际上是随机变量X的1阶原点矩,方差实际上是随机变量X的2阶中心矩 变异系数(Coefficient of Variation):标准差与均值(期望)的比值称为变异系数,记为C.V 偏度Skewness(三阶) 峰度Ku

机器学习算法系列(1):K近邻

一.K近邻算法 K近邻算法简单.直观.首先给出一张图,根据这张图来理解最近邻分类器. 根据上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据.也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形或者红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类. 我们常说,物以类聚,人以群分,判别一个人是一个什么样的人,常常可以从他身边的朋友入手,所谓观其友,而识其人.我们不是要判别上图中那个绿色的圆

【华为云技术分享】机器学习(01)——机器学习简介

最近在研究机器学习,随手将学习的过程记录下来,方面自己的学习与回顾 1. 机器学习是什么? 机器学习(Machine Learning,ML)是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门科学技术. 它使用计算机技术,应用微积分.概率论.统计学.逼近论.凸分析.算法等多种不同的理论与学科,针对分析目标建立有针对性的数据模型,通过对过往历史数据的学习(分类.回归.聚类等),完成基本算法模型,并能通过后续持续的学习(数据输入),

数学系列:数学资源

中文数学专业网站:博士家园 http://www.math.org.cn http://www.bossh.net   数理逻辑.数学基础:http://www.disi.unige.it/aila/eindex.html 意大利逻辑及其应用协会的主页,包括意大利数理逻辑领域的相关内容.   http://www.plenum.com/title.cgi?2110 <代数与逻辑>,<西伯利亚代数与逻辑期刊>的翻译版,荷兰的Kluwer学术出版社提供其在线服务.   http://f

【机器学习快讯】20150128机器学习快讯

机器学习基础 [维基]<List of machine learning concepts>机器学习概念集锦,统观机器学习全局的好材料.要好好利用维基这个大宝库--尤其是人工整理的知识结构和体系,比细节更有价值! <FAQ: What machine learning book should I start with? ? Ben Mabey> 机器学习入门该看什么书?文章介绍了基本经典的机器学习书籍. 深度学习进阶线路图.深度学习进阶线路图(二):监督学习.深度学习进阶线路图(三

[机器学习] 1、《机器学习系统设计》学后总结

<机器学习系统设计>是一本不错的机器学习实战入门的书籍.第一章介绍了用于机器学习的Python相关工具,接下来分别用实战型例子讲解聚类.分类.回归.模式识别.降维等机器学习的主要的几种方法. 机器学习就是教机器自己来完成任务,机器学习的目标就是通过若干示例让机器学会完成任务. 像其他工程一样,设计一个机器学习系统工作一般花在一些极其平凡的任务上: (1)读取和清洗数据: (2)探索和理解输入数据: (3)分析如何最好地将数据呈现给学习算法: (4)选择正确的学习算法和模型: (5)正确地评估性

【机器学习快讯】20150206机器学习快讯

机器学习视野 <10 Machine Learning Experts You Need to Know>最值得关注的10位机器学习专家:Geoffrey Hinton.Michael I Jordan.Andrew Ng.Jeff Hawkins.Yann LeCun.Terry Sejnowski.David M. Blei.Daphne Koller.Zoubin Ghahramani.Sebastian Thrun DEEPLEARNING.UNIVERSITY的论文库已经收录了963

机器学习实战笔记1(机器学习基础)

1:如何选择合适的算法 2:python简介 (1)   python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目.相对于c++/c/java,完成简单的操作就需要编写大量的代码:而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁) (2)   python具有numpy科学函数库,它是一个使运算更容易.执行更迅速的库:另外还有matplotlib绘图工具. 3:python语

台大机器学习基石课程之机器学习基本原理和概念

前段时间在网上看到了coursera公开课台大机器学习基石课程,比较全面而且清晰地将机器学习所需的基本知识.理论基础给与了讲解.foundation中有几个比较重要的概念和思想,先进行一下回顾,然后开启对后续技法课程的学习和总结. 1. VC dimension(VC维,非常重要的概念) 能够shutter 二分类问题的上限.也是衡量模型复杂度的工具(类似自由度的概念).之所以这个概念比较重要是它能够解释为什么机器能够学习. 1),以概率统计中常用的手段:用sample来估计整体,机器学习也是如