隐马尔可夫模型(HMM)中文分词

1. 马尔可夫模型

  如果一个系统有n个有限状态$S=\{s_{1} , s_{2} ,\dots s_{n}\}$,随着时间推移,该系统将从某一状态转移到另一状态,$Q=\{q_{1},q_{2},\dots q_{n}\}$位一个随机变量序列,该序列中的变量取值为状态集S中的某个状态,其中$q_{t}$表示系统在时间t的状态。那么:系统在时间t处于状态$s_{j}$的概率取决于其在时间1,2, $\dots$  t-1的状态,该概率为:

$$P(q_{t} = s_{j} | q_{t-1} = s_{i}, q_{t-2} = s_{k} \dots)$$ 

如果在特定条件下,系统在时间t的状态只与其在时间t-1的状态相关,即:
$$P(q_{t} = s_{j} | q_{t-1} = s_{i}, q_{t-2} = s_{k}\dots) = P(q_{t} = s_{j} | q_{t-1} = s_{i})$$
则该系统构成一个离散的一阶马尔可夫链。
进一步,如果只考虑上述公式独立于时间t的随机过程:
$$P(q_{t} = s_{j} | q_{t-1} = s_{i})= a_{ij} , 1 \leq i,j \leq N$$
该随机过程为马尔可夫模型。其中,状态转移概率aij 必须满足以下条件:
$$a_{ij} \geq 0 , \sum_{j=1}^{N}{a_{ij} = 1} $$

2.隐马尔可夫模型  

  相对于马尔可夫模型,在隐马尔可夫模型中,我们不知道模型经过的状态序列,只知道状态的概率函数,即,观察到的事件是状态的随机函数,因此,该模型是一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的观察状态转换过程的随机函数。隐马尔可夫模型可以用五个元素来描述,包括2个状态集合和三个概率矩阵:

  (1) 隐含状态 S

  这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如$S_{1},S_{2},S_{3}$等等)

  (2)可观测状态 O

  在模型中与隐含状态相关联,可通过直接观测而得到。(例如$O_{1},O_{2},O_{3}$等等,可观测状态的数目不一定要和隐含状态的数目一致。

  (3)初始状态概率矩阵 π

  表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,$P(S_{1})=p_{1},P(S_{2})=P_{2},P(S_{3})=p_{3}$,则初始状态概率矩阵 π=[ p1 p2 p3 ]

  (4)隐含状态转移概率矩阵A

  描述了HMM模型中各个状态之间的转移概率。其中$A_{ij} = P( S_{j} | S_{i} ),1 \leq i,,j \leq N$, 表示在 t 时刻、状态为 $S_{i}$ 的条件下,在 t+1 时刻状态是 $S_{j}$ 的概率

  (5) 观测状态转移概率矩阵B

  令N代表隐含状态数目,M代表可观测状态数目,则 $B_{ij} = P( O_{i} | S_{j} ), 1 \leq i \leq M,1 \leq j \leq N$ 表示在 t 时刻、隐含状态是 $s_{j}$条件下,观察状态为 $O_{i}$ 的概率。

3.维特比算法

  在Hmm中存在这样一个问题,给定一个观察序列$O=\{O_{1},O_{2}\dots O_{T}\}$和模型$\mu = (A,B,\ pi)$,如何快速有效地选择在一定意义下“最优”的状态序列$Q={q_{1},q_{2} \dots q_{t}}$,使得该状态序列最好的解释观察序列。维特比算法就是解决这个问题的一个有效方法,下面请看详细介绍。维特比变量$ \delta _{t} (i)$是在时间t时,Hmm沿着某一条路径达到状态$s_{i}$,并输出观察序列$O_{1}O_{2} \dots O_{t}$的最大概率:
$$\delta _{t} (i) = \max \limits_{q_{1},q_{2} \dots q_{t-1}} P(q_{1},q_{2},\dots,q_{t}=s_{i},O_{1},O_{2}, \dots O_{t} | \mu)$$
其中,$\delta _{t} (i)$有如下递归关系:
$$\delta _{t+1} (i) = \max_{j}[\delta _{j} \cdot a_{ij}] \cdot b_{i}(O_{t+1})$$
  维特比算法(Viterbi algorithm):
  步1 初始化:
  $$\delta _{1} (i) = \pi _{i}b_{i}(O_{1}), 1 \leq i \leq N$$
  $$ \psi _{1} (i) = 0$$
  步2 归纳计算:
  $$\delta _{t} (j) = \max_{1 \leq i \leq N}[\delta _{i-1}(i) \cdot a_{ij}] \cdot b_{j}(O_{t}),2 \leq t \leq T, 1 \leq j \leq N$$
  $$\psi _{t}(j) =  argmax _{1 \leq i \leq N}[\delta _{t-1}(i) \cdot a_{ij}] \cdot b_{j}(O_{t}),2 \leq t \leq T, 1 \leq i \leq N$$
  步3 终结:
  $$\widehat Q_{T} =  argmax_{1 \leq i \leq N}[\delta_{T}(i)]$$
  $$ \widehat P(\widehat Q_{T}) = \max_{1 \leq i \leq N}[\delta_{T}(i)]$$
  步4 路径回溯:
  $$ \widehat q_{t} = \psi_{t+1}(\widehat q_{t+1}),t=T-1,,T-2 \dots , 1$$

4.HMM用于中文分词

  在将HMM用于中文分词中,可以采用四个隐含状态,分别为‘S‘,‘B‘,‘M‘,‘E‘,分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到HMM的各个参数,然后使用维特比算法来解释测试集,得到分词结果,源码在可参考 HMM实现中文分词

  本次实验中所使用的训练文件,测试文件,及词典等是由国际计算语言学会中文语言处理小组所主办的国际中文语言处理竞赛中所使用的数据。这份数据中,主要包含了训练文件,测试文件,词典以及一个评分脚本。特别需要说明的是这些中文语料库分别由台湾中央研究院,香港城市大学,北京大学以及微软亚洲研究院提供。具体可参考 中文分词入门之资源

时间: 2024-11-09 03:53:25

隐马尔可夫模型(HMM)中文分词的相关文章

七月算法-12月机器学习在线班--第十七次课笔记-隐马尔科夫模型HMM

七月算法-12月机器学习--第十七次课笔记-隐马尔科夫模型HMM 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 隐马尔科夫模型 三个部分:概率计算,参数估计,模型预测 1,HMM定义 HMM由初始概率分布π.状态转移概率分布A以及观测概率分布B确定. Eg:以中文分词为例子 隐状态为="2",是不是终止字,是/否?(Y/N)即是不是最后一个字. A矩阵:第一个:当前是终止字,下一个也是终止字的概率 B是当前的隐状态是终止词,

隐马尔科夫模型HMM

隐马尔科夫模型HMM 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十七次课在线笔记.隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程.其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析.在早些年HMM模型被非常广泛的应用,而现在随着机器学习的发展HMM模型的应用场景越来越小然而在图像识别等领域HMM依然起着重要的作用. 引言: 隐马尔科夫模型是马尔科夫链的一种,它

隐马尔科夫模型 HMM(Hidden Markov Model)

本科阶段学了三四遍的HMM,机器学习课,自然语言处理课,中文信息处理课:如今学研究生的自然语言处理,又碰见了这个老熟人: 虽多次碰到,但总觉得一知半解,对其了解不够全面,借着这次的机会,我想要直接搞定这个大名鼎鼎的模型,也省着之后遇到再费心. Outline 模型引入与背景介绍 从概率图讲起 贝叶斯网络.马尔科夫模型.马尔科夫过程.马尔科夫网络.条件随机场 HMM的形式化表示 Markov Model的形式化表示 HMM的形式化表示 HMM的两个基本假设 HMM的三个基本问题 Evalution

隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数

隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在本篇我们会讨论HMM模型参数求解的问题,这个问题在HMM三个问题里算是最复杂的.在研究这个问题之前,建议先阅读这个系列的前两篇以熟悉HMM模型和HMM的前向后向算法,以及EM算法原理总结,这些在本篇里会用到.在李航的<统计学习方法>中,这个算法的讲解只考虑了单个观测

隐马尔可夫模型HMM与维特比Veterbi算法(一)

隐马尔可夫模型HMM与维特比Veterbi算法(一) 主要内容: 1.一个简单的例子 2.生成模式(Generating Patterns) 3.隐藏模式(Hidden Patterns) 4.隐马尔可夫模型(Hidden Markov Model) 一.一个简单的例子 考虑一个简单的例子,有人试图通过一片海藻推断天气--民间传说告诉我们'湿透的'海藻意味着潮湿阴雨,而'干燥的'海藻则意味着阳光灿烂.如果它处于一个中间状态('有湿气'),我们就无法确定天气如何.然而,天气的状态并没有受限于海藻的

隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率

隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题,本篇我们就关注于HMM第一个基本问题的解决方法,即已知模型和观测序列,求观测序列出现的概率. 1. 回顾HMM问题一:求观测序列的概率 首先我们回顾下HMM模型的问题一.这个

隐马尔可夫模型HMM与维特比Veterbi算法(二)

隐马尔可夫模型HMM与维特比Veterbi算法(二) 主要内容: 前向算法(Forward Algorithm) 穷举搜索( Exhaustive search for solution) 使用递归降低问题复杂度 前向算法的定义 程序实现前向算法 举例说明前向算法 一.前向算法(Forward Algorithm) 目标:计算观察序列的概率(Finding the probability of an observed sequence) 1. 穷举搜索( Exhaustive search fo

隐马尔科夫模型HMM(一)HMM模型

隐马尔科夫模型HMM(一)HMM模型基础 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率(TODO) 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用.当然,随着目前深度学习的崛起,尤其是RNN,LSTM等神经网络序列模型的火热,HMM的地位有所下

【ML-13-1】隐马尔科夫模型HMM

[ML-13-1]隐马尔科夫模型HMM [ML-13-2]隐马尔科夫模型HMM--前向后向算法 [ML-13-3]隐马尔科夫模型HMM--Baum-Welch(鲍姆-韦尔奇) [ML-13-4]隐马尔科夫模型HMM--预测问题Viterbi(维特比)算法 目录 基础知识-马尔可夫链 HMM简介 HMM定义 HMM模型的三个基本问题 举例 一.基础知识-马尔可夫链 1.1 马尔可夫性质 设{X(t), t ∈ T}是一个随机过程,E为其状态空间,若对于任意的t1<t2< ...<tn<