【转】高斯混合模型

本文就高斯混合模型（GMM,Gaussian Mixture Model）参数如何确立这个问题，详细讲解期望最大化（EM,Expectation Maximization）算法的实施过程。

单高斯分布模型GSM

多维变量X服从高斯分布时，它的概率密度函数PDF为：

x是维度为d的列向量，u是模型期望，Σ是模型方差。在实际应用中u通常用样本均值来代替，Σ通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和Σ，把x代入（1）式，当概率大于一定阈值时我们就认为x属于C类。

从几何上讲，单高斯分布模型在二维空间应该近似于椭圆，在三维空间上近似于椭球。遗憾的是在很多分类问题中，属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。

高斯混合模型GMM

GMM认为数据是从几个GSM中生成出来的，即

K需要事先确定好，就像K-means中的K一样。π_k是权值因子。其中的任意一个高斯分布N(x;u_k,Σ_k)叫作这个模型的一个component。这里有个问题，为什么我们要假设数据是由若干个高斯分布组合而成的，而不假设是其他分布呢？实际上不管是什么分布，只K取得足够大，这个XX Mixture Model就会变得足够复杂，就可以用来逼近任意连续的概率密度分布。只是因为高斯函数具有良好的计算性能，所GMM被广泛地应用。

GMM是一种聚类算法，每个component就是一个聚类中心。即在只有样本点，不知道样本分类（含有隐含变量）的情况下，计算出模型参数（π，u和Σ）----这显然可以用EM算法来求解。再用训练好的模型去差别样本所属的分类，方法是：step1随机选择K个component中的一个（被选中的概率是π_k）；step2把样本代入刚选好的component，判断是否属于这个类别，如果不属于则回到step1。

样本分类已知情况下的GMM

当每个样本所属分类已知时，GMM的参数非常好确定，直接利用Maximum Likelihood。设样本容量为N，属于K个分类的样本数量分别是N₁,N₂,...,N_k，属于第k个分类的样本集合是L(k)。

样本分类未知情况下的GMM

有N个数据点，服从某种分布Pr(x;θ)，我们想找到一组参数θ，使得生成这些数据点的概率最大，这个概率就是

称为似然函数（Lilelihood Function）。通常单个点的概率很小，连乘之后数据会更小，容易造成浮点数下溢，所以一般取其对数，变成

称为log-likelihood function。

GMM的log-likelihood function就是：

这里每个样本x_i所属的类别z_k是不知道的。Z是隐含变量。

我们就是要找到最佳的模型参数，使得(6)式所示的期望最大，“期望最大化算法”名字由此而来。

EM法求解

EM要求解的问题一般形式是

Y是隐含变量。

我们已经知道如果数据点的分类标签Y是已知的，那么求解模型参数直接利用Maximum Likelihood就可以了。EM算法的基本思路是：随机初始化一组参数θ⁽⁰⁾，根据后验概率Pr(Y|X;θ)来更新Y的期望E(Y)，然后用E(Y)代替Y求出新的模型参数θ⁽¹⁾。如此迭代直到θ趋于稳定。

E-Step E就是Expectation的意思，就是假设模型参数已知的情况下求隐含变量Z分别取z₁,z₂,...的期望，亦即Z分别取z₁,z₂,...的概率。在GMM中就是求数据点由各个 component生成的概率。

注意到我们在Z的后验概率前面乘以了一个权值因子α_k，它表示在训练集中数据点属于类别z_k的频率，在GMM中它就是π_k。

M-Step M就是Maximization的意思，就是用最大似然的方法求出模型参数。现在我们认为上一步求出的r(i,k)就是“数据点x_i由component k生成的概率”。根据公式(3),(4),(5)可以推出：

与K-means比较

相同点：都是可用于聚类的算法；都需要指定K值。

不同点：GMM可以给出一个样本属于某类的概率是多少。

参考：http://www.cnblogs.com/zhangchaoyang

时间： 2025-01-11 12:04:44

【转】高斯混合模型的相关文章

EM算法求高斯混合模型参数估计——Python实现

EM算法一般表述: 当有部分数据缺失或者无法观察到时,EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然估计.在每一步迭代分为两个步骤:期望(Expectation)步骤和最大化(Maximization)步骤,因此称为EM算法. 假设全部数据Z是由可观测到的样本X={X1, X2,--, Xn}和不可观测到的样本Z={Z1, Z2,--, Zn}组成的,则Y = X∪Z.EM算法通过搜寻使全部数据的似然函数Log(L(Z; h))的期望值最大来寻找极大似然估计,注意此处的h不是一个变量

带你理解带你飞——高斯混合模型算法

GMM这是图像处理,模式识别和深度学习领域一个百嚼不烂的话题.很多人被一堆数学公式,迭代求和和看似毫无联系的likehood EM算法搞得糊里糊涂. 其实就算羡慕着很多牛气哄哄的学霸炫耀公式推理的IT普工们,我们有没有问过自己,我们真的知道GMM吗?于是有些人和我一样有了如下的思考和疑问: 1.到底什么是高斯混合模型?最好能一句话或者简单的话说明白,至少让我一辈子也忘不掉这个该死的算法... 2.GMM是如此复杂有效,能让GMM算法向富士康的iphone流水线一样,虽然精密庞杂但却能完整直观的展

高斯混合模型与EM算法

对于高斯混合模型是干什么的呢?它解决什么样的问题呢?它常用在非监督学习中,意思就是我们的训练样本集合只有数据,没有标签. 它用来解决这样的问题:我们有一堆的训练样本,这些样本可以一共分为K类,用z(i)表示.,但是具体样本属于哪类我们并不知道,现在我们需要建立一个模型来描述这个训练样本的分布.这时, 我们就可以用高斯混合模型来进行描述. 怎么入手呢? 高斯混合模型: 我们这么想,因为样本集合潜在地是可以分为K类的,用z(i)表示第 i 样本所属的类别,所以z(i) 的范围为从1至 K.对于我们可

高斯混合模型（GMM）

复习: 1.概率密度函数,密度函数,概率分布函数和累计分布函数概率密度函数一般以大写“PDF”(Probability Density Function),也称概率分布函数,有的时候又简称概率分布函数. 而累计分布函数是概率分布函数的积分. 注意区分从数学上看,累计分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率.这个意义很容易理解. 概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率.如果在某一x附近取非常小的一个邻域Δx,那么,随机变量X落在(x, x+Δx)内的

Stanford机器学习课程笔记4-Kmeans与高斯混合模型

这一部分属于无监督学习的内容,无监督学习内容主要包括:Kmeans聚类算法.高斯混合模型及EM算法.Factor Analysis.PCA.ICA等.本文是Kmeans聚类算法.高斯混合模型的笔记,EM算法是适用于存在latent/hidden变量的通用算法,高斯混合模型仅仅是EM算法的一种特殊情况,关于EM算法的推到参见Andrew Ng讲义.由于公式太多,最近时间又忙实习的事就简单写一些,回头看时还得参考Ng的笔记和自己的打印Notes上的笔记,这里的程序对理解可能能提供另外的一些帮助. K

又看了一次EM 算法，还有高斯混合模型，最大似然估计

先列明材料: 高斯混合模型的推导计算(英文版): http://www.seanborman.com/publications/EM_algorithm.pdf 这位翻译写成中文版: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 高斯混合模型的流程: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html 最大似然估计: http://bl

EM算法原理以及高斯混合模型实践

EM算法有很多的应用: 最广泛的就是GMM混合高斯模型.聚类.HMM等等. The EM Algorithm 高斯混合模型(Mixtures of Gaussians)和EM算法 EM算法求最大似然函数估计值的一般步骤: (1)写出似然函数: (2)对似然函数取对数,并整理: (3)求导数,令导数为0,得到似然方程: (4)解似然方程,得到的参数即为所求. 期望最大化算法(EM算法): 优点: 1. 简单稳定: 2. 通过E步骤和M步骤使得期望最大化,是自收敛的分类算法,既不需要事先设定类别也

paper 62：高斯混合模型（GMM）参数优化及实现

高斯混合模型(GMM)参数优化及实现 (< xmlnamespace prefix ="st1" ns ="urn:schemas-microsoft-com:office:smarttags" />2010-11-13) 1 高斯混合模型概述< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 高斯密度函

机器学习（十二、十三）：K-means算法、高斯混合模型

简介: 本节介绍STANFORD机器学习公开课中的第12.13集视频中的算法:K-means算法.高斯混合模型(GMM).(9.10.11集不进行介绍,略过了哈) 一.K-means算法属于无监督学习的聚类算法,给定一组未标定的数据(输入样本),对其进行分类,假设可分为k个类.由于算法比较直观,故直接给出步骤和MATLAB代码.(k-means算法在数学推导上是有意义的) MATLAB代码: %% %k均值聚类 clear all; close all; %% n=2; m=200; v0=r

EM算法 - 2 - EM算法在高斯混合模型学习中的应用

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 在开始讲解之前,我要先给看这篇文章的你道个歉,因为<2012.李航.统计学习方法.pdf>中

猜你喜欢

PYQT设计无边框窗体

#UI.py,通过UI设计师制作后直接转换为UI.py脚本 # -*- coding: utf-8 -*-from PyQt4 import QtCore, QtGui try: _fromUt ...

使用PHP调用REST API

原文:http://yuguo.us/weblog/php-rest-api/ 表征状态转移(英文:REpresentational State Transfer,简称REST)是Roy Fieldi ...

04_IOC容器装配Bean(xml方式)

IOC容器装配Bean(xml方式) 1.Spring 提供配置Bean三种实例化方式 1)使用类构造器实例化(默认无参数) <bean id="bean1" class=& ...

[翻译]Android 5.0之应用中实现材料设计—Material Design

上午的时候在刷Google+,看到了Abraham Williams转发了一篇强文,是Android Developers网站新发的一篇博客—Implementing Material Design ...

physics---hdu5826（积分）

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5826 题意:有n个小球在一条直线上滚动,起始位置为xi, 方向为di(-1往左走,1往右走),初始速度 ...

越狱Season 1-Episode 11: And Then There Were 7-M

Season 1, Episode 11: And Then There Were 7-M -Michael: That one 那个 -businessman: Nice choice choice ...

英文操作系统中中文乱码（SQL中 NVARCHAR 和 VARCHAR区别）

varchar在SQL Server中是采用单字节来存储数据的,nvarchar是使用Unico来存储数据的．中文字符存储到SQL Server中会保存为两个字节(一般采用Unico编码),英文字 ...

导出excel文件

<?php/** * Created by PhpStorm. * User: chenxiaolong * Date: 2016/8/16 * Time: 14:37 */header(&qu ...

提升效率，减少时间和资源的消耗

尽量用最少的文字描述清楚问题. 事情起因是这样的: 要做遥控小车的平台迁移,STM32开发板无法方便地供电,因此又拿出了尘封的51(STC89C52RC),搭配上最小系统板就可以用排针加杜邦线供电了. ...

【PostgreSQL】PostgreSQL语法

在阅读的过程中有不论什么问题.欢迎一起交流邮箱:[email protected] QQ:1494713801 一.PostgreSQL时间类型转换 --时间类型转成字符类型 select t ...

[mysql]每日备份shell脚本

每天固定时间用mysqldump 备份mysql数据. #!/bin/bash #每天早上4点, mysql备份数据 orangleliu #chmod 700 backup.sh #crontab ...

犹稚媚示诬bt4u0b4jo64

萧萧有些惊讶的看着王冬,道:"没想到你这么善良."相比于自己提升魂环,霍雨浩更加关心的是马小桃的情况.他和马小桃刚刚确立了姐弟关系,马小桃就受到如此重创,他好不容易才有了一个亲人啊 ...

PHP输入流php://input与$_POST、$_GET

Content-Type的取值会影响php的输入流学习笔记 1,Content-Type仅在取值为application/x-www-data-urlencoded和multipart/form-d ...

虚拟机linux扩盘命令操作

虚拟机linux扩展硬盘分原有硬盘上增加及新增硬盘,二者实现差不多. fdisk -l 后显示为:/dev/sdb为新添加的硬盘: fdisk /dev/sda 增加新分区按n,再按p,回车二次 ...

Python编程语言历史及特性01

一.Python语言 Python(英语发音:/paθn/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Pyt ...

socket Server 解决TIME_WAIT状态等待问题

#include <stdlib.h> #include <dirent.h> #include <time.h> #include <unistd.h> ...

MQTT---HiveMQ源码详解(十四)Persistence-LocalPersistence

简介 HiveMQ的Persistence提供配置包括File和Memory,以解决不同场景的不同需求,使用者可以自行配置六种信息的PersistenceMode 就代码来讲,又分为LocalPers ...

UNITY 接讯飞语音过程总结

11:13 2017/3/141,安装问题:JDK与ECLIPSE位数一定要对应,32位对64位会出现 java was returned ....code 13的弹框错误.版本号可以不一致.2,EC ...

关于十六进制0x

0x00. 在程序设计中,以0x开始的数据表示16进制. 比如0x00表示十进制中的0,0x01表示1. 0x01. “0x”是后面是十六进制数字的标示,后面是数字的主题.比如0x01其实是[0x][ ...

Django开发微信公众平台

处理微信发来的信息,实际上就是处理xml的过程,先写xml工具类 # -*- coding:utf-8 -*- from xml.dom import minidom from Web.model.W ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.