机器学习----分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题。

二元变量分布:

         伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率)

那么一次抛硬币的概率分布如下:

假设训练数据如下:

那么根据最大似然估计(MLE),我们要求u:

求值推导过程如下:

所以可以求出:

以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数。但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的

取值就应该是8/10(这符号频率派的观点)。如何解决这个问题呢?

   那么这时候就需要从贝叶斯理论出发,贝叶斯理论认为,u并不是一个固定的值,u是同样服从某个分布,因此我们假设u有个先验分布P(u)。

   但是如何选取这个先验分布p(u)呢?

我们知道

因此我们希望先验分布也可以有类似的概率分布,为什么这么说呢?因为后验概率=先验概率*似然函数,所以如果选择的先验分布和似然函数有一样的结构,那么得到的后验概率也会存在相似的结构,这样会使得我们后面的计算简便。

   共轭性:θ的后验分布p(θ|x)与先验分布P(θ)属于同一分布,那么称二者为共轭分布。

   因此我们假设u的先验分布也为

        

那么这时候数学里面有个分布叫做Beta分布:

那么假设我们投硬币,m次正面,l次反面。总共是m+l=N次实验:

那么这时候u的分布为:

依旧和先验分布服从一样的分布(共轭分布)

假设我们要预测下一次的实验结果,也就是给定D得到下一次的预测分布:

我们可以发现当m,N无限变大的时候,这种估计近似等于极大似然估计。

  多元变量分布:

很多时候,变元的不止只有两个,还有多元,其实估计过程是类似的。  假设有k维向量,其中某个向量Xk=1,其他等于0。

例如某个变量x2发生,则X2=1,x=(0,1,0,0,0,0)  以抛筛子为例子,总共有6个面。

那么xk=1发生的概率为Uk,那么x的分布为:

考虑n个独立观测值{x1,x2,...xn}D,对应的似然函数:

其中mk其实就是这么多次实验中,uk出现的次数大小。估计极大似然估计,我们会得出:

同理,为了避免数据量小导致的过拟合问题,我们对Uk也假设一个先验分布:

考虑到对于多元变量的分布u:

因此我们选择它的共轭分布狄利克雷分布为先验分布:

那么后验分布=似然分布*先验分布:

依旧和先验分布服从一样的分布(共轭分布)

假设我们要预测下一次的实验结果,也就是给定D得到下一次的预测分布:

又因为对于狄利克雷分布:

所以对于某个类的分布预测为:

时间: 2024-10-20 22:37:30

机器学习----分布问题(二元,多元变量分布,Beta,Dir)的相关文章

分布问题(二元,多元变量分布,Beta,Dir)

这涉及到数学的概率问题. 二元变量分布:       伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的取值就应该是8/

变量分布

变量分布是概率分布,用以表述随机变量取值的概率规律. 变量的分布情况是我们在描述性分析的时候要关注的一个指标,实际上在推断性分析的时候,我们同样要根据样本的分布情况来估计总体分布,掌握了总体的数据分布之后才能选择相应的方法做进一步分析,下面我们分三部分介绍一下变量的分布: 1.连续型变量分布 2.离散型变量分布 3.联合分布

连续型变量分布

连续型变量在一定区间内可以取任何值,因此其概率分布不能以分布列来表示,只能通过概率分布密度曲线表示. 1.正态分布 正态分布是最常见也是最重要的一种连续分布,概率密度函数如下: 累积概率分布函数如下: 正态分布有两个参数,μ和σ.我们可以将正态分布表示成N(μ,σ).当μ=0,σ=1,这样的正态分布被称作标准正态分布 2.指数分布 指数分布用来表示独立随机事件发生的时间间隔,其密度函数随着取值的变大而指数减小 其中λ > 0是分布的一个参数,常被称为率参数(rate parameter).即每单

常见的机器学习与数据挖掘知识点之常见分布

常见的机器学习与数据挖掘知识点之常见分布 Common Distribution(常见分布): Discrete Distribution(离散型分布): 0-1 Distribution(0-1分布) 定义:若随机变量X只取0和1两个值,且其分布律为 P{X=k}=pk(1?p)1?k,k=0,1 其中X服从参数为p的(0?1)分布,记作X-(0?1). 如抛掷硬币一次便服从两点分布. ??两点分布的期望与方差分别为:p,1?p. Geometric Distribution(几何分布) 定义

联合变量分布

联合分布(joint distribution) 无论是连续变量分布和离散变量分布都是单一随机变量,当由单一变量推广为多个变量时,就成为了联合分布.联合分布(joint distribution)描述了多个随机变量的概率分布,是对单一随机变量的自然拓展.联合分布的多个随机变量都定义在同一个样本空间中. 关于联合变量分布,推荐看一下这篇文章http://www.cnblogs.com/vamei/p/3224111.html

机器学习笔记02:多元线性回归、梯度下降和Normal equation

在<机器学习笔记01>中已经讲了关于单变量的线性回归以及梯度下降法.今天这篇文章作为之前的扩展,讨论多变量(特征)的线性回归问题.多变量梯度下降.Normal equation(矩阵方程法),以及其中需要注意的问题. 单元线性回归 首先来回顾一下单变量线性回归的假设函数: Size(feet2) Price($1000) 2104 460 1416 232 1534 315 852 178 - - 我们的假设函数为 hθ(x)=θ0+θ1x 多元线性回归 下面介绍多元线性回归(Linear R

【机器学习中的数学】多项式分布及其共轭分布

多项变量(Multinomial Variables) 二元变量是用来描述只有两种可能值的量,而当我们遇到一种离散变量,其可以有K种可能的状态.我们可以使用一个K维的向量x表示,其中只有一维xk为1,其余为0.对应于xk=1的参数为μk,表示xk发生时的概率.其分布可以看做是伯努利分布的一般化. 现在我们考虑N个独立的观测D={x1,-,xN},得到其似然函数.如图: 多项式分布(The Multinomial distribution) 现在我们考虑k个变量的联合分布,依赖于参数μ和N次观测,

离散型变量分布

离散变量是指该变量只能取离散的孤立值,通常按计量单位数计数,如个数.台数等.离散变量的分布很多都与伯努利实验有关,我们先来说一下伯努利实验: 在相同条件下重复地.各次之间相互独立地进行的一种试验,成为伯努利实验. 判断是否为伯努利试验的关键是每次试验事件A的概率不变,并且每次试验的结果同其他各次试验的结果无关,重复是指试验为一系列的试验,并非一次试验,而是多次,但要注意重复事件发生的概率相互之间没有影响. 1.二项分布(binomial distribution) 二项分布即重复n次独立的伯努利

Memcached 笔记与总结(5)Memcached 的普通哈希分布和一致性哈希分布

普通 Hash 分布算法的 PHP 实现 首先假设有 2 台服务器:127.0.0.1:11211 和 192.168.186.129:11211 当存储的 key 经过对 2 (2 台服务器)取模运算得出该 key 应该保存到的服务器: <?php $server = array( array('host' => '127.0.0.1', 'port' => 11211), array('host' => '192.168.186.129', 'port' => 11211