Implementing EM for Gaussian mixtures

完成任务时遇到的相关知识点:

http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.multivariate_normal.html

服从多元正态分布的随机样本

参数:

均值mean

方差cov

http://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html

堆叠

http://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.inv.html

np.linalg.inv求逆

http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.multivariate_normal.html

scipy.stats.multivariate_normal

时间: 2024-09-29 16:21:54

Implementing EM for Gaussian mixtures的相关文章

混合高斯模型的EM求解(Mixtures of Gaussians)及Python实现源码

今天为大家带来混合高斯模型的EM推导求解过程. 全部代码如下! def NDimensionGaussian(X_vector,U_Mean,CovarianceMatrix): #X=numpy.mat(X_vector) X=X_vector D=numpy.shape(X)[0] #U=numpy.mat(U_Mean) U=U_Mean #CM=numpy.mat(CovarianceMatrix) CM=CovarianceMatrix Y=X-U temp=Y.transpose()

机器学习:EM算法

概率模型有的时候既含有观测变量,又含有隐变量.如果概率模型的变量都是观测变量,那么通过给定的数据可以通过极大似然估计,或者贝叶斯估计方法.但是当模型含有隐变量的时候,就不能简单地使用这些估计算法. EM算法的推导 预备知识:Jensen不等式 $f$是定义域为实数的函数,如果对于所有的实数x.如果对于所有的实数x,$f(x)$的二次导数大于等于0,那么f是凸函数.当x是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数.如果只大于0,不等于0,那么称f是严格凸函数. Jensen不等式

国际流行开源机器学习和模式识别工具(转)

机器学习和数据挖掘最近几年有很大突破且实用推进很快.在众多数据中,声音和图像就占据绝大部分,以声音和图像为内容源的机器学习和数据挖掘会越来越多,所以声音分析,例如音乐分析等; 图像识别等会越来越重要. 国外很多相关的开源项目是我们好好学习第一手资料,我们在基本算法原理清楚的情况下,可以好好学习这些opensource Machine Learning  M2K - M2K represents the music-specific set of D2K modules designed to c

电子商务顾客评论的热点话题分析(转)

摘要: 买家的评论文本数据是电子商务领域一种重要的数据形式,通过对其分析,电商卖家可以直接了解顾客对产品的态度与建议,提取顾客关注的热点问题,也可以进行顾客分类,实现精准营销,改进和提高生产和服务等:买家可以提取所关注属性的相关评价,了解舆论情感倾向,提高购物决策效率.但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难,比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战.本文主要研究当词条数目(变量数)远远大于评论文本数(样本数)时如何归纳顾客评论以及提取

聚类算法总结

最近要在spark上做一个聚类的项目,数据量和类的个数都比较大.KMeans效果尚可,但是有点慢,因而重新看了下常用的算法. kmeans attention: init centers (randomize vs kmeans++) mini-batch kmeans loops: random samples; find closest for all; update centers for each mean shift init: get centers by bandwidth loo

Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos slides practicals all up. Thanks Andrew for the tip!

Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos/slides/practicals all up. Thanks Andrew for the tip! Preamble This repository contains the lecture slides and course description for the Deep Natural Language P

HTK训练错误消息意义

在HTK训练线上数据的时候,遇到了ERROR [+6550] LoadHTKLabels: Junk at end of HTK transcription,这个问题,网上查阅是说有空行,结果根本没有空行,最后查找可知,是标注文件lab里面有空格,转成lab.mlf文件后,空格单独成一行,所以造成了这个小困扰. 定位问题之后,就很好解决了: sed -i 's/\s//g' *char.mlf sed -i '/^$/d' *char.mlf 以下是网上找的错误消息的意义,以供后续参考. UND

Fisher vector fundamentals

文章<Fisher Kernels on Visual Vocabularies for Image Categorization>中提到: Pattern classication techniques can be divided into the classes ofgenerative approaches anddiscriminative approaches. While the first class focuses onthe modeling of class-condit

Stanford机器学习课程笔记4-Kmeans与高斯混合模型

这一部分属于无监督学习的内容,无监督学习内容主要包括:Kmeans聚类算法.高斯混合模型及EM算法.Factor Analysis.PCA.ICA等.本文是Kmeans聚类算法.高斯混合模型的笔记,EM算法是适用于存在latent/hidden变量的通用算法,高斯混合模型仅仅是EM算法的一种特殊情况,关于EM算法的推到参见Andrew Ng讲义.由于公式太多,最近时间又忙实习的事就简单写一些,回头看时还得参考Ng的笔记和自己的打印Notes上的笔记,这里的程序对理解可能能提供另外的一些帮助. K