机器学习基础统计学（频率派与贝叶斯派）

一、频率派

　　假设X为随机数据，其矩阵表示维度为N,假设θ为X随机数的特征，频率派认为在一次实验中，如果时间A发生了，那么则认为事件A的发生一定是事件A的概率最大，记为P(x=A)最大，由假设可知事件A发生的概率和θ有关。

　　极大似然是指一次试验就发生的事件，这个事件本身发生概率最大，极大似然估计具体求解与推导公式如下：

　　假设：x是服从某个概率的分别，可以用概率P =p(x|Θ)，其中Θ为概率分布的某个特征值，p(x|Θ)为事件x发生的概率。现在进行一次关于x的试验，得到样本值为（x_1,x₂,x₃,···,x_n)时，依据极大似然估计原理可以得出；

　　　　　　　　　　L(Θ) = L(x_1,x₂,x₃,···,x_n;Θ)

　　　　　　　　　　　　= p(x₁|Θ)·p(x₂|Θ),···,p(x_n|Θ)

　　由极大使然估计原理可知：L(Θ)最大，则可以改写如下：

　　为了表示计算方便，等式双方取对数：

　令对数释然函数

求解：

　设

　为了使Θ参数值最大，则方程可为：

　令其偏导数为0求偏微分解方程组，求解方程可以采用梯度下降法

　　　梯度下降法原理如下：（这里采用例子进行说明）

　　　　　　　　假设求下列函数最小值：

　　　　　　　　采用梯度下降法：我们假设初始点为为（1，1），学习率为0.1，对Θ求导，则Θ = 2Θ₁+2Θ₂

　　　　　　　　则函数的梯度为：

　　　　　　　计算过程如下：

　　　　　　　其数学原理可以参考如下博客链接：
　　　　　　　　　　https://blog.csdn.net/weixin_42278173/article/details/81511646

　　　若可导：

二、贝叶斯统计学　　　　　　　　　　　　　　　　

先了解相关概念“先验概率”与“后验概率”，以一个例子来说明：假设喜欢打球的人在人群中的占比为30%，即100人中会有30个人爱好球类。

　　则有： P(球) = 30%，这个就叫作"先验概率"。

　　设：现在从爱好球类的人中，已知50%的人喜欢喝可乐。也就是说，如果从爱好球类的人抽样，该检测法有50%的概率会喜欢和可乐，但也有50%的概率不爱喝可乐。

　　　　用概率条件概率表示即为：P(爱喝可乐|喜爱球类)=50%

　　现在我们想知道的是：在随机抽样一个人，某人的爱喝可乐P(爱喝可乐|人群中)，这个称为"后验概率"。

“贝叶斯公式”其实就是已知先验概率求解后验概率，具体公式推导如下：

　　　　基础公式1：

　　　注：P(B|A)为在A条件下B发生的概率

　　　则全概率公式为：

机器学习基础统计学（频率派与贝叶斯派）

原文地址：https://www.cnblogs.com/fanshaoxiang/p/11982740.html

时间： 2024-11-10 02:40:34

理解频率派和贝叶斯派