线性代数和概率论——机器学习基础

目录

  • 一、线性代数

    • 常见概念
    • 线性变换
  • 二、概率论
    • 两大学派
    • 两种概率估计方法
    • 举例说明
    • 两种随机变量

一、线性代数

万事万物都可以被抽象成某些特征的组合,线性代数的本质是将具体事物抽象为数学对象,描述其静态和动态的特征。

常见概念

  • 标量(scalar)

    一个标量 a 可以是整数、实数或复数

  • 向量(vector)

    多个标量 a1,a2,?,an 按一定顺序组成一个序列。通常用一维数组表示,例如语音信号

  • 矩阵(matrix)

    矩阵包含向量,一个m*n的矩阵,可以看成是由n个m维的列向量构成,也可以看成是由m个n维的行向量构成。通过用二维数组表示,例如灰度图像

  • 张量(tensor)

    张量就是高阶的矩阵,如果把三阶魔方的每一个小方块看作一个数,它就是个 3×3×3 的张量,3×3 的矩阵则恰是这个魔方的一个面,也就是张量的一个切片。通过用三维乃至更高维度的数组表示,例如RGB图像

  • 范数(norm)

    对单个向量大小的度量,描述的是向量自身的性质,将向量映射为一个非负的数值。

  • 内积(inner product)

    两个向量之间的相对位置,即向量之间的夹角。计算的则是两个向量之间的关系

  • 线性空间(linear space)

    一个集合,元素是具有相同维数的向量(可以是有限个或无限个), 并且定义了加法和数乘等结构化的运算

  • 内积空间(inner product space)

    定义了内积运算的线性空间

  • 正交基(orthogonal basis)

    在内积空间中,一组两两正交的向量。正交基的作用就是给内积空间定义出经纬度。?旦描述内积空间的正交基确定了,向量和点之间的对应关系也就随之确定。

  • 标准正交基(orthonormal basis)

    正交基中基向量的 范数单位长度都是1

线性变换

线性变换描述了向量或者作为参考系的坐标系的变化,可以用矩阵表示;

线性空间中,变化的实现有两种方式:

  1. 点的变化

    Ax=y

    表示向量 x 经过矩阵 A 所描述的变换,变成了向量 y

  2. 参考系的变化

    描述矩阵的?对重要参数是特征值λ和特征向量x。

    对于给定的矩阵 A,假设其特征值为λ,特征向量为 x,则它们之间的关系如下:

    Ax=λx

    矩阵的特征和特征向量描述了变化速度与方向。

    把矩阵所代表的变化看作奔跑的人,那么特征值λ代表奔跑的速度,特征向量x代表奔跑的方向。

二、概率论

同线性代数一样,概率论也代表一种看待世界的方式,关注的焦点是生活中的不确定性和可能性。

概率论是线性代数之外,人工智能的另一个理论基础,多数机器学习模型采用的都是基于概率论的方法。

由于实际任务中可供使用的训练数据有限,因而需要对概率分布的参数进行估计,这也是机器学习的核心任务。

两大学派

  1. 频率学派(Frequentists)

    频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值。只是观察者的我们无从知晓,因此在计算具体事件的概率时,要先确定分布的类型和参数,以此为基础进行概率推演

  2. 贝叶斯学派(Bayesians)

    贝叶斯派则认为参数是随机值,固定的先验分布是不存在的。假设本身取决于观察结果,数据的作用就是对假设做出不断修正,使观察者对概率的主观认识更加接近客观实际。

频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。

两种概率估计方法

  1. 极大似然估计法(maximum likelihood estimation)

    思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就符合训练训练数据的分布。

    最大似然估计法估计参数时,只需要使用训练数据

  2. 最大后验概率法(maximum a posteriori estimation)

    思想是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。

    最大后验概率法估计参数时,除了训练数据外,还需要额外的信息,也就是贝叶斯中的先验概率

举例说明

好学生和差学生打架

  1. 极大似然估计:老师认为肯定是差学生的错,因为差学生爱惹事
  2. 最大后验概率:老师如果知道优等生和差学生之间的过节(先验信息),把这些因素考虑进来,就不会简单地认为是养生挑衅。

    极大似然是寻找一组参数使得观测数据出现的概率最大,最大后验是寻找当前观测数据下出现概率最大的一组参数。

两种随机变量

  1. 离散型随机变量(discrete random variable)

    在一定区间内取值有有限个或者可数个,例如某些地区人口的出生数

  2. 连续型随机变量(continuous random variable)

    在一定区间内变量取值有无限个,数值无法一一列举出来,例如某些地区的房价

原文地址:https://www.cnblogs.com/chenqionghe/p/12557966.html

时间: 2024-11-06 20:18:19

线性代数和概率论——机器学习基础的相关文章

【机器学习基础】线性可分支持向量机

引言 接下里的一系列有关机器学习的博文,我将具体的介绍常用的算法,并且希望在这个过程中尽可能地结合实际应用更加深入的理解其精髓,希望所付出的努力能得到应有的回报. 接下来的有关机器学习基础博文主要根据机器学习技法课程的学习,围绕特征转换(feature transforms)这个主要工具,从以下三个方向进行探讨: 如果现在有很多特征转换可以使用的时候,我们该如何运用这些特征转换,如何控制特征转换中的复杂度的问题,从这个角度刺激了支持向量机(Support Vector Machine)算法的发展

机器学习基础4--评估线性分类

如线性回归一样,我们也分成了训练集和测试集. 用训练集进行分类器的学习,用测试集来评估分类错误. 分类错误: 测试集 -> 隐藏类型标签 -> 放到分类器进行处理 -> 得出结果 -> 与定义好的类型标签进行比较 错误率: 分类错误数/总句子数 正确率: 分类正确数/总句子数 那么,什么样的正确率才是好的? 至少要比随机猜测效果要好. 如果有k个分类,那么正确率至少要大于等于1/k 同时要关注是否有意义: 2010年,全球有90%的邮件是垃圾邮件.而只要说所有邮件都是垃圾邮件,就有

第一章:机器学习基础

第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming).在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果.监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果.      监督学习一般使用两种类型的目标变量:标称型和数值型.标称型目标变量的结果只在有限目标集中取值,如真与假.动物分类集合{爬行类.鱼类.哺乳类.两栖类.植物.真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100.42.0

机器学习基础——详解自然语言处理之tf-idf

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天的文章和大家聊聊文本分析当中的一个简单但又大名鼎鼎的算法--TF-idf.说起来这个算法是自然语言处理领域的重要算法,但是因为它太有名了,以至于虽然我不是从事NLP领域的,但在面试的时候仍然被问过好几次,可见这个算法的重要性. 好在算法本身并不困难,虽然从名字上看疑惑重重,但是一旦理解了其中的原理,一切都水到渠成,再也不怕面试的时候想不起来了.废话不多说,我们进入正题. 算法原理 TF-idf名字的中间用分隔号进行了分割,并且TF和

【机器学习基础】混合和装袋

融合模型(Aggregation Model) 如果我们已经得到了一些特征或者假设,它们和我们做机器学习的目标有若干的一致性的话,我们可以将这些假设综合起来,让预测效果变得更好,这样的模型被称为融合模型. 融合模型是通过混合(mix)和组合(combine)一些假设的方式,得到更好的预测结果. 下面列举了四种不同的混合组合方式,并给出了数学表示形式: 当有多个假设时,我们选择检验误差最小的假设作为我们最信任的目标函数: 我们现在有多个假设,我们可以给每个假设一个投票的权利,综合所有假设的投票结果

机器学习实战笔记1(机器学习基础)

1:如何选择合适的算法 2:python简介 (1)   python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目.相对于c++/c/java,完成简单的操作就需要编写大量的代码:而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁) (2)   python具有numpy科学函数库,它是一个使运算更容易.执行更迅速的库:另外还有matplotlib绘图工具. 3:python语

【机器学习实战】第1章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习实战之第一章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习基础2--评价回归模型

再次回到上一节的13次模型. 这个疯狂的曲线造成了一种现象过拟合. 很明显,你的房子不可能只值这么点价钱,所以看上去,这个13次模型甚至还不如一开始的二次模型. 那么现在有个疑问,我们应该怎样去选择最合适的模型? 我们想要准确预测,但是我们无法观测未来. 下面我们模拟一次预测过程: 1.我们随机将一些房子数据排除在外. 2.然后拟合剩下的数据 3.最后进行预测和推断. 术语: 训练集(training set):用来拟合模型的数据. 测试集(test set):排除出去的数据. 训练损失(tra