高斯分布和二项分布属于指数分布族的证明

1、什么是指数分布族

1.1 基本描述

指数型分布是一类重要的分布族,在统计推断中,指数型分布族占有重要的地位,在各领域应用广泛。许多的统计分布都是指数型分布,彼此之间具有一定的共性,在研究其统计性质与分布特征时,利用指数型分布族的特征,可以将这一族分布的特征分别表示出。在广义线性模型的统计推断中,常假设样本服从指数型分布。

1.2 定义

指数分布族可以写成如下的形式:

在这里,η叫做分布的自然参数,a(η)叫做累积量母函数(又称log partition function)。exp(-α(η))这个量是分布p(y;η)的归一化常数,用来确保分布p(y;η)对y的积分为1。T(y)称为充分统计量(sufficient statistic),对于我们考虑的分布,一般认为T(y)=y。

一组确定的T,a和b定义了这样一个以η为参数的分布族。对于不同的η,我们可以得到指数分布族中不同的分布。

1.3 数学特征

对于单参数指数型分布的随机变量,记,分别表示关于η的函数a对η求一二阶导数,则有以下结论:

  1. 指数型分布随机变量的期望
  2. 指数型分布随机变量的方差

2、高斯分布属于指数分布族的证明

对于高斯分布,当方差已知时,(方差对模型的参数没有影响,所以我们可以任意地选一个方差),在这里我们令,则其分布可以表示为:

为了将其向指数分布族靠拢,我们进行如下表示:

这显示了高斯分布可以被写成是指数分布族的形式,所以高斯分布属于指数分布族。

进一步地,我们用指数分布族的性质去验证一下,有:

刚好是高斯分布的期望和方差,所以验证成功。

3、二项分布属于指数分布族的证明

对于二项分布(伯努利分布),每一个取不同均值的参数Φ,就会唯一确定一个y属于{0,1}之间的分布。所以可以表示为

故二项分布的分布函数只以Φ作为参数,统一这样表示二项分布:

这样,自然参数为:,翻转一下,有:

为了进一步将二项分布向指数分布族靠拢,我们可以进行如下表示:

这显示了二项分布可以被写成是指数分布族的形式,所以二项分布属于指数分布族。

进一步地,我们用指数分布族的性质去验证一下,有:

刚好是二项分布的期望与方差,故满足性质。

时间: 2024-12-16 18:26:39

高斯分布和二项分布属于指数分布族的证明的相关文章

【cs229-Lecture4】GLMS:选定指数分布族,如何用它来推导出GLM?

在Lecture4中有3部分内容: Newton's method        牛顿方法 Exceponential Family        指数分布族 Generalized Linear Models        广义线性模型(GLMS) 牛顿法上一篇随便中已经讲过了,是平行于梯度下降算法的另一种最优化算法. 然后,视频中证明了伯努利分布和高斯分布都属是指数分布族中的特例的证明,实际上就是把这两种分布转化为指数分布族的形式,然后一一去对照,判断是否符合. 接下来,就讲到了当我们选定了

Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导

从指数分布族去推导出广义线性模型

指数分布族的定义: 若一类概率分布可以写成如下形式,那么它就属于指数分布族: η - 自然参数,通常是一个实数 T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识) 对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布.极限定理得) 记录一下几个指数分布族以及它们的特征: 正态分布(高斯分布)--总体噪音(由中心极限定理得) 伯努利分布--逻辑回归(对01问题建模) 多项式分布--K种结果的事情进行建模 泊松

指数分布族与广义线性模型

整理一下之前所学过的关于回归问题的思路: 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格: 学习过程:构建模型h(θ): 线性回归:最小二乘法.梯度下降法.线性模型的概率解释: 局部加权回归:带权重的线性回归.权值的钟形函数: 逻辑回归:分类方法.梯度上升法.牛顿法.引出感知机学习算法: 广义线性模型:指数分布族.给定概率分布推导出线性模型. 这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知: 在线性回归模型的概率解释中假设: 在逻辑回归模型的推导中假

机器学习-牛顿方法&指数分布族&GLM

本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient descent)].在最小化损失函数时,采用的就是梯度下降的方法逐步逼近最优解,规则为其实梯度下降属于一种优化方法,但梯度下降找到的是局部最优解.如下图: 本节首先讲解的是牛顿方法(NewTon's Method).牛顿方法也是一种优化方法,它考虑的是全局最优.接着还会讲到指数分布族和广义线性模型.下面来详细

Exponential family: 指数分布族

Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的翻译. 1. 几个问题     什么是指数分布族?     既然是"族",那么族内的共同特点是什么?     为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?(这个问题没有回答,需要结合具体实例分析) 2. 参考 Exponential family. (201

牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

个人总结: 1.这一篇文章主要是证明性的东西为主,所以说数学公式相对较多,原文笔记作者省略了一些东西,没有和上文很好衔接,所以初学者不一定看明白,建议结合斯坦福机器学习原文讲义(是英文的,没找到有全文中文翻译版的)看一看,如果刚入门对公式的推导就迷糊,说明你有必要去学一些数学基础. 2.结合上一篇文章中提到的梯度下降方法,本文提出了一种更快的迭代方法,叫牛顿方法.原文中公式(1)都能看懂,一转眼怎么就变公式(2)了呢?不知有没有对此迷糊的朋友,其实原文作者这么写确实存在误会,实际上公式(2)不应

指数分布族

指数族分布是一大类分布,基本形式为: 分布函数框架中的h(x),η(θ),T(x)和A(θ)并不是任意定义的,每一部分都有其特殊的意义. θ是自然参数(natural parameter),通常是一个实数: h(x)是底层观测值(underlying measure): T(x)是充分统计量(sufficient statistic): A(θ)被称为对数规则化(log normalizer). --------------------- T(x)是x的充分统计量(能为相应分布提供足够信息的统计

广义线性模型(GLM)

一.广义线性模型概念 在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x+\xi $,其中误差项$\xi \sim N(0,{{\sigma }^{2}})$,那么因变量$Y\sim N({{\theta }^{T}}x,{{\sigma }^{2}})$. (2)模型预测的输出为$E[Y]$,根据$Y={{\theta }^{T}}x+\xi $,$E[Y]=E[{{