高斯分布

数据挖掘中的高斯分布

高斯分布,无论是单变量还是多元变量,在统计数据挖掘中是非常有用的,包括一些底层数据假设是高度非高斯的数据挖掘模型。我们需要好好了解多元高斯。

为什么我们应该关注它

  • 高斯像橘子汁和阳光一样是自然存在的
  • 我们需要它来理解贝叶斯最优分类器
  • 我们需要它来理解回归
  • 我们需要它来理解神经网络
  • 我们需要它来理解混合模型
  • ……

PDF(概率密度函数)的熵

分布的熵越大,预测就越困难,压缩就越困难,分布就有越少的尖。

例1、“盒子”分布

例2、单位方差“盒子”分布

例3、“尖帽”分布

单位方差“尖帽”分布

“2尖”分布

单位方差分布的熵:

单变量高斯分布

单位方差高斯分布

普通高斯分布

我们描述X ~ N(μ,σ2),X是均值为μ方差为σ2的高斯分布,上图中, X ~ N(100,152)。

误差函数:假设X ~ N(0,1),ERF(x)等于X小于x的概率等于X的累积分布。

假设X ~ N(μ,σ2),

中心极限定理:如果(X1,X2,…Xn)是独立同分布的连续随机变量,那么定义,当n->∞时,p(z)->均值为E[Xi],方差为Var[Xi]的高斯分布。

二维高斯分布

,那么定义X~N(μ,Σ)的均值为:,其中高斯参数是,Σ是对称非负矩阵。可以证明E[X] = μ,Cov[X] = Σ(注意这是高斯分布的结果属性,不是定义)。

估计p(x):

  • 步骤一:选一个向量X

  • 步骤二:定义δ = x - μ

  • 步骤三:计算与椭圆相交的等高线数量,形式为Σ-1,D=sqrt(δTΣ-1δ)=x和μ的马氏距离

  • 步骤四:定义w = exp(-D2/2),在马氏距离的平方空间中,靠近μ的x有较大的权值,而远离的有较小的权值。

  • 步骤五:乘以w确保

    例1:

         

    观察:均值,主轴,非对角线协方差的含义,p(x)的最大梯度区域

    例2:

    例3:

    在这个例子中,x和y几乎是独立的。

    例4:

    这个例子中,x和x+y明显是非独立的。

    例5:

    这个例子中,x和20x+y明显是非独立的。

多元高斯分布

那么定义X ~ N(μ,Σ)的均值为:

其中高斯参数为:

Σ是一个非负矩阵。另外,E[X] = μ和Cov[X] = Σ。(注意他们是高斯的结果属性,不是定义)

普通高斯分布

轴对齐高斯分布

球状高斯分布

退化的高斯分布

到目前为止,我们见到了高斯公式,对它的行为表现有个直观的认识,也了解了高斯协方差矩阵,接下来给一些高斯分布的技巧。

变量子集

写作其中

这将是我们将m维分布拆分成变量子集的标准符号。

高斯边缘化依然是高斯分布

如果

那么U依然是高斯分布(这个事实不是很明显)

线性变换后依然保持高斯分布

假设X是一个m维高斯随机变量X ~ N(μ,Σ),定义Y是一个p维的随机变量(注意p≤m),因此Y = AX

其中A是一个p x m矩阵,那么Y ~ N(Aμ,AΣ AT )

两个独立的高斯相加依然是高斯分布

如果X ~ N(μ , Σ ),Y ~ N(μ , Σ )并且X ⊥ Y,那么

为什么X和Y不独立它就不成立呢?

下面两种说明那种对呢?

如果X和Y是非独立的,那么X+Y是高斯分布,但是协方差会改变;

如果X和Y是非独立的,那么X+Y可能是非高斯分布。

有条件的高斯是高斯分布

如果那么,

其中

注意:当v的给定值是μv时,u的条件均值是μu;边缘均值是v的一个线性函数;条件方差真好等于或小于边缘方差;条件方差与v的给定值是无关的。

举例说明:

如果那么,其中

同理m=82时

给出原高斯作对比

高斯和链式法则

让A是一个常数矩阵,如果那么并且

总结一下可用的高斯工具:

最后举一个例子。

假设有一个聪明的势利眼,且有一个孩子。整个世界中,IQ用一个高斯分布N(100,152)描绘

另外有一个测试,是来侧IQ的分数,平均分是那个人的IQ。但是因为噪声的存在,所测的值可能比真实值IQ高或者低。

假设那个人非要拉着自己的孩子去做测试,孩子得到了130分,他惊喜他孩子的IQ是属于前2%。

某些人可能会想:这个测试肯定是不精确的,所以孩子的IQ可能是120或140,但是根据所给的结果,这个孩子很有可能是130。

最大似然IQ

MLE是能使观测数据最有可能出现的隐藏参数的值。在本例中,

但是这与给定观测值后最有可能的参数值不相同。

我们真正想要的是:

所求的是IQ的后验概率。

考虑上面说到的那么多高斯工具,我们打算这样计算:

如果在给定分数的情况下必须给出最有可能的IQ,那么

MAP是最大后验概率。

to be continue……

时间: 2024-08-12 03:53:48

高斯分布的相关文章

异常检测(Anomaly detection): 异常检测算法(应用高斯分布)

估计P(x)的分布--密度估计 我们有m个样本,每个样本有n个特征值,每个特征都分别服从不同的高斯分布,上图中的公式是在假设每个特征都独立的情况下,实际无论每个特征是否独立,这个公式的效果都不错.连乘的公式表达如上图所示. 估计p(x)的分布问题被称为密度估计问题(density estimation)

理解高斯分布

无意中在网上看到的一篇博文,记录一下:http://www.alanzucconi.com/2015/09/09/understanding-the-gaussian-distribution/ 自然界的许多现像看似是随机的,实际上却不一定.比如树和草地在以湖为中心的地方会更多一点,又比如一个屋子里人的身高. 高斯分布可从连续分布中推导而来. 文中举了两个例子,从一个bean machine中得到豆子落的位置符合二项分布,而当n取无限大时,二项分布就成了高斯分布. 这就解释了为什么很多看似随机的

中心极限定理;使用均匀分布产生高斯分布

如果我们产生N个[-1,1]之间均匀分布的随机变量,那么这N个随机变量的均值的期望当然应该是0:但是样本均值几乎不可能是0,而是在0左右分布,且越靠近0的概率越大. // pseudo code for 1000 gaussian distribution random variable, // use uniform distribution random variable for(int i = 0; i < 1000; i++) { var sum = 0; for(int j = 0;

Matlab高斯分布输入的PID控制

一.matlab的随机数组 s=1:1:500;in = 0.1*randn(1,500)+1;plot(s,in,'*'); hist(in,20); 二.PID控制 网上源码: clear all; close all; ts=0.001; sys=tf(5.235e005,[1,87.35,1.047e004,0]);%建立传递函数 dsys=c2d(sys,ts,'z');%将连续的时间模型转换成离散的时间模型,采样时间是ts=0.001 [num,den]=tfdata(dsys,'v

条件高斯分布和卡尔曼滤波

这段时间有个卡尔曼滤波的作业,正好在刑波(Eric Xing)的概率图模型课程上也谈到了这一点,所以从这个角度来阐述卡尔曼滤波,同时介绍其中用到的条件高斯分布的推导过程.这一推导过程来自于<模式识别与机器学习>(PRML). 1. 条件高斯分布 本节要解决的问题是已知,,计算. 按照的划分方法,可以将均值和协方差矩阵分块如下所示.(其中协方差矩阵是对称的) 为简单起见,记,同时分块为 多维高斯分布可表示为 计算 该式同时可表示为 也服从高斯分布,所以我们只需计算均值和协方差矩阵即可.由上式可知

异常检测: 应用多元高斯分布进行异常检测

多元高斯(正态)分布 多元高斯分布有两个参数u和Σ,u是一个n维向量,Σ协方差矩阵是一个n*n维矩阵.改变u与Σ的值可以得到不同的高斯分布. 参数估计(参数拟合),估计u和Σ的公式如上图所示,u为平均值,Σ为协方差矩阵 使用多元高斯分布来进行异常检测 首先用我我们的训练集来拟合参数u和Σ,从而拟合模型p(x) 拿到一个新的样本,使用p(x)的计算公式计算出p(x)的值,如果p(x)<ε就将它标记为一个异常点 当我们对上图中那个绿色的点进行异常检测时,这些红色的点服从多元高斯正态分布(x1与x2正

异常检测(Anomaly detection): 高斯分布(正态分布)

高斯分布 高斯分布也称为正态分布,μ为平均值,它描述了正态分布概率曲线的中心点.σ为标准差,σ2为方差,σ描述了曲线的宽度.在中心点附近概率密度大,远离中心点概率密度小. 高斯分布图 概率曲线下方的面积为1(积分为1),概率和为1.μ为中心点,σ为宽度.σ小时图形更尖更高,σ大时图形更矮更宽,因为面积不变为1,μ变化时表示中心点的转移. 参数估计 假设我们猜测每个样本xi服从某种分布(如正态分布),我不知道这些参数(μ,σ2)的值是多少. 参数估计=>给定数据集,希望能估算出(μ,σ2)的值 如

老笔记整理七:高斯分布解决随机圆分布问题

好久没有写空间了,今天在写一个页面的时候遇到了之前从来没有遇到过的问题.今天有主要问题有两个.     1.我想在背景上生成随机圆:    2.是基于上面产生的问题. 首先,通过JS生成DIV,给DIV 加DSS让他成为一个圈.这个问题不大,大概半个小时就写出来了. div结构也不复杂 然后运行结果 大家 看出问题了吗?是的,产生的圆不怎么会在当中.想想也是,既然是随即生成的那么应该是平均分布的. 但是这并不是我想要的结果.我之所以要这些圆圈是为了让背景好看点,如果看不到那还有什么意思?但是又不

数字信号处理C语言 ------均匀分布和高斯分布随机数

环境:QT5+VS2013编译 一.均匀分布 double uniform(double a,double b,long int *seed)a下限,b上限,seed随机种子. main.cpp #include <QCoreApplication> #include <math.h> #include <stdio.h> #include <stdlib.h> #include <uniform.c> int main(int argc, ch

Matlab 高斯分布 均匀分布 以及其他分布 的随机数

Matlab 高斯分布 均匀分布 以及其他分布 的随机数 betarnd 贝塔分布的随机数生成器 binornd 二项分布的随机数生成器 chi2rnd 卡方分布的随机数生成器 exprnd 指数分布的随机数生成器 frnd f分布的随机数生成器 gamrnd 伽玛分布的随机数生成器 geornd 几何分布的随机数生成器 hygernd 超几何分布的随机数生成器 lognrnd 对数正态分布的随机数生成器 nbinrnd 负二项分布的随机数生成器 ncfrnd 非中心f分布的随机数生成器 nct