HMM算法(生成模型+无监督学习)-->扩展CRF

隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。

现实世界中有一类问题具有明显的时序性,比如路口红绿灯、连续几天的天气变化,我们说话的上下文,HMM的基础假设就是,一个连续的时间序列事件,它的状态受且仅受它前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链。

假设今天是否有雾霾只由前天和昨天决定,于是就构成了一个2阶马尔可夫链,若昨天和前天都是晴天,那么今天是晴天概率就是90%。

稍微再复杂点,假设你想知道2000公里外一个城市的雾霾情况,但是你没法直接去当地看到空气情况,手头只有当地风力情况,也就是说空气状态是隐藏的,风力情况是可观察的,需要观察序列推测隐藏序列,由于风力确实对雾霾情况有较大影响,甚至可以假设风力大的情况下90%概率是晴天,所以通过样本学习,确实可以达到从观察序列推测隐藏序列的效果,这就是隐式马尔可夫。

一个模型,两个假设,三个问题

1.一个模型

2.两个假设

3.三个问题

总结

  • HMM是一个概率模型,对于观测量分布和状态分布均有概率解释
  • HMM是一个时序模型,对状态序列做了自相关一阶的建模和假设,即马尔科夫假设
  • HMM是一个非监督学习模型,可以看成是一个聚类模型,隐状态可以给我们看待问题的全新角度
  • HMM是一个预测模型,对未来观测值的预测本质上就是隐状态所代表的概率分布的加权平均
  • HMM是一个贝叶斯模型,可以对观测分布预设初始信念参数
  • HMM需要预设隐状态数量,这个有一定的人为性
  • HMM需要预测观测分布,比如高斯分布、高斯混合分布
  • HMM对状态序列平滑的效果似乎要超过对状态预测的效果,最著名的就是Viterbi算法

参考

机器不学习:HMM模型解析

HMM模型和Viterbi算法

HMM 理论基础及金融市场的应用(一)

原文地址:https://www.cnblogs.com/nxf-rabbit75/p/9747408.html

时间: 2024-08-03 09:23:18

HMM算法(生成模型+无监督学习)-->扩展CRF的相关文章

K-均值算法(数据挖掘无监督学习)

一.无监督学习 1.聚类:是一个将数据集中在某些方面相似的数据成员进行分类组织的过程.因此,一个聚类就是一些数据实例的集合.聚类技术经常被称为无监督学习. 二.K-均值聚类 1.k-均值算算法:是发现给定数据集k个簇的算法 2.步骤: 1).随机选取k个数据点作为初始的聚类中心(要求发现k个簇). 2).把每个数据点分配给距离它最近的聚类中心(对图中的所有点求到这K个种子点的距离,假如点P离种子点S最近,那么P属于S点群.) 3).重新确定聚类中心(x,y),一旦全部的数据点都被分配,每个聚类的

05_无监督学习--聚类模型--K 均值

无监督学习--聚类模型--K 均值0.引入依赖1.数据的加载和预处理2.算法实现3.测试 无监督学习--聚类模型--K 均值 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt # 这里直接 sklearn 里的数据集from sklearn.datasets.samples_generator import make_blobs 1.数据的加载和预处理 x, y = make_blobs(n_samples=100, centers

生成模型 VS 判别模型 (含义、区别、对应经典算法)

从概率分布的角度考虑,对于一堆样本数据,每个均有特征Xi对应分类标记yi. 生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布.能够学习到数据生成的机制. 判别模型:学习得到条件概率分布P(y|x),即在特征x出现的情况下标记y出现的概率. 数据要求:生成模型需要的数据量比较大,能够较好地估计概率密度:而判别模型对数据样本量的要求没有那么多. 两者的优缺点如下图,摘自知乎 生成模型:以统计学和Bayes作为理论基础 1.朴素贝叶斯: 通过学习先验概率分

【机器学习算法-python实现】K-means无监督学习实现分类

1.背景 无监督学习的定义就不多说了,不懂得可以google.因为项目需要,需要进行无监督的分类学习. K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法. 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心.一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设质心就是min+range*random.之后在逐渐递归跟进,其实要想明白还是要跟一遍代码,自己每一步都输出一下看看跟自己想象的是否一样. (

无监督学习——K-均值聚类算法对未标注数据分组

无监督学习 和监督学习不同的是,在无监督学习中数据并没有标签(分类).无监督学习需要通过算法找到这些数据内在的规律,将他们分类.(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个无监督学习过程.) 无监督学习没有训练过程. 聚类算法 该算法将相似的对象轨道同一个簇中,有点像全自动分类.簇内的对象越相似它的分类效果越好. 未接触这个概念可能觉得很高大上,稍微看了一会其实算法的思路和KNN一样很简单. 原始数据集如下(数据有两个特征,分别用横纵坐标表示),原始数据集并没有任何标

监督学习模型分类 生成模型 判别模型 概率模型 非概率模型 参数模型 非参数模型

判别模型和生成模型:统计学派和贝叶斯学派之争 判别模型: 直接对输入空间到输出空间的映射h(x)做预测,或者直接对条件概率分布P(y|x)做预测 PM,SVM,NN,KNN,LR,DT 模型一般更准确 不需要预设条件 鲁棒性更高 生成模型: 先对概率分布P(x,y)做预测,根据贝叶斯公式得到P(y|x) GDA,NB,HMM 收敛速度一般更快 可以训练包含隐变量的模型 需要假设的先验分布 可以还原出联合概率分布P(x,y) 可以还原出判别模型,但反过来不行 概率模型和非概率模型:预测概率还是预测

(转)【重磅】无监督学习生成式对抗网络突破,OpenAI 5大项目落地

[重磅]无监督学习生成式对抗网络突破,OpenAI 5大项目落地 [新智元导读]"生成对抗网络是切片面包发明以来最令人激动的事情!"LeCun前不久在Quroa答问时毫不加掩饰对生成对抗网络的喜爱,他认为这是深度学习近期最值得期待.也最有可能取得突破的领域.生成对抗学习是无监督学习的一种,该理论由 Ian Goodfellow 提出,此人现在 OpenAI 工作.作为业内公认进行前沿基础理论研究的机构,OpenAI 不久前在博客中总结了他们的5大项目成果,结合丰富实例介绍了生成对抗网络

概率生成模型在验证码上的成果论文解读

摘要从少数样本学习并泛化至截然不同的情况是人类视觉智能所拥有的能力,这种能力尚未被先进的机器学习模型所学习到.通过系统神经科学的启示,我们引入了视觉的概率生成模型,其中基于消息传送(message-passing)的推断以统一的方式处理识别.分割和推理(Reasoning).该模型表现出优秀的泛化和遮挡推理(occlusion-reasoning)能力,并在困难的场景文字识别基准任务上优于深度神经网络,且更具有 300 倍的数据效率(data efficient)优势.此外,该模型基本上打破了现

生成模型和判别模型(转)

引入 监督学习的任务就是学习一个模型(或者得到一个目标函数),应用这一模型,对给定的输入预测相应的输出.这一模型的一般形式为一个决策函数Y=f(X),或者条件概率分布P(Y|X).监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach).所学到的模型分别为生成模型(generative model)和判别模型(discriminative model). 决策函数和条件概率分布 决策函数Y=f(X) 决策函数Y=f(X)