古德-图灵估计

古德-图灵估计可以解决n元语法模型(n-gram)中的数据的稀疏问题。主要的思想是把非零的n元语法的概率降低匀给一些低概率n元语法,以修改最大似然估计与真实概率之间的偏离。是实用比较多的平滑算法。

图:从左到右的变化:把一部分看得见的事件的概率匀给未看见的事件

以统计词典中的概率为例,来说明古德-图铃公式。

假定在语料库中出现r次的词有Nr个,特别的出现0次(未登录词)出现的次数为N0个。语料库中词语的个数为N,显然

出现r次的词在词典中的相对频度为r/N。如果不做任何优化处理,就依这个相对频度作为这些词的概率估计。

加入当r非常小时,这么统计可能不可靠,因此出现r次的那些词在计算它们的概率时要使用一个更小一点的数,是dr,而不是r。古德-图灵估计按照下面的公式计算dr:

dr=(r+1)* Nr+1/Nr

显然

一般来说,出现一次的词的数量比出现两次的词的数量多,出现两次的词的数量比出现三次的数量多。这叫做Zipf定律。下图是一个小语料库中,出现次数r和对应的数量Nr之间的关系。

这样就给未登录词一个很小的非零值,从而解决了零概率问题。同时下调了出现频率很低的词的概率。在实际的自然语言处理中,一般对出现次数超过某个阈值的词概率不下调;只对低于这个阈值的词,概率下调;下调的频率之和等于未登录词的概率。

对于二元组(wi-1,wi)的条件概率估计P(wi|wi-1)也可以做同样的处理。因通过前一个词wi-1预测后一个词wi时,所有可能情况的条件总和应该为1,即

对于出现次数非常少的二元组(wi-1|wi),它们出现的次数需要按着古德-图灵的方法打折扣,这样意味着有一部分概率没有分配出去,留给了未登录的二元组(wi-1wi)。基于这种思想,估计二元模型概率公式如下:

其中T是一个阈值,一般在8-10左右,fgt表示经过古德-图灵估计后的相对频度。

链接

时间: 2024-08-11 05:45:57

古德-图灵估计的相关文章

基于隐马尔可夫模型的有监督词性标注

代码下载:基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词.动词.形容词或其他词性的过程,又称词类标注或者简称标注.词性标注是自然语言处理中的一项基础任务,在语音识别.信息检索及自然语言处理的许多领域都发挥着重要的作用. 词性标注本质上是一个分类问题,对于句子中的每一个单词W,找到一个合适的词类类别T,也就是词性标记,不过词性标注考虑的是整体标记的好坏,既整

第三章:统计语言模型

1.用数学方法描述规律 由于自然语言具有上下文相关性,所以我们要依此建模,这就是我们常说的统计语言模型(statistical Language Model). 比如一句话:国家主席习近ping昨天宣布将给非洲提供100亿美元的资金,帮助他们发展. 这句话很容易理解.但是如果换成:习近ping国家主席将宣布100亿美元的资金,帮助他们发展给非洲.这样意思含混了,虽然多少还能猜到一点.但是如果换成习近ping昨天宣布将给非洲国家主席提供100亿美元的资,帮助他们金发展.基本上读者就不知所云了. 针

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

Word2Vec-语言模型的前世今生

引言 在机器学习领域,语言识别和图像识别都比较容易做到.语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵.但是文本是一种抽象的东西,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理. 现在,有这么一个有趣的例子,我接下来要讲的模型就可以做到. 首先给出一个例子,Paris - France + America = ? 从我们人的角度来看,Paris是法国的首都,那么首都减去国家再加上一个国家,很可能表示的就是另一个国家

自然语言处理怎么最快入门?

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答 赞同337反对,不会显示你的姓名 吴俣,自然语言处理民工 杨泽.林斌.王汪汪 等人赞同 推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实

自然语言处理一些读书笔记和自己的思考。

在知乎上搜索相关问题,有人推荐<数学之美>,之前粗略看过一次,这次想重新看一下并且做个读书笔记.下面是关于自然语言理解方面的一些读书笔记和自己的思考. 一. 自然语言处理历史: 自然语言处理最初发展的20多年里,相关科学家都极力通过电脑模拟人脑,试图用这种方式来处理人类语言,但是这种方式被证明是行不通的,成功几乎为零.NLP发展的第二阶段是70年代之后,科学家们终于找到了基于数学模型和统计的方法. 第一阶段的时候,学术界对人工智能和自然语言理解的普遍认识是:要让机器完成翻译或者语音识别等等,必

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50646528 http://blog.csdn.net/han_xiaoyang/article/details/50646667 声明:版权所有,转载请联系作者并注明出处 1. 引言:朴素贝叶斯的局限性 我们在之前文章<NLP系列(2)_用朴素贝叶斯进行文本分类(上)>探讨过,朴素贝叶斯的局限性来源于其条件独立

【整合】数据平滑

原文地址:关于数据平滑的一些理解作者:龙龙强 前段时间看论文时,论文里面采用了Kneser-Ney平滑算法对未登录词和稀有词进行了处理.看到这个陌生的名词,心里不由产生了几个问题,什么是平滑算法,它是干什么用的,什么是Kneser-Ney,它有什么特殊之处,利用平滑算法对于未登录词和稀有词处理后会产生什么样的效果.带着这些疑问,我阅读了宗成庆的<统计自然语言理解>和他的课件,看课件时感觉大概知道什么意思了,但是一看书,具体到公式,头都蒙了,发现原来这是一个非常有历史的研究领域,鉴于本人并不是具

ML—朴素贝叶斯

华电北风吹 日期:2015/12/12 朴素贝叶斯算法和高斯判别分析一样同属于生成模型.但朴素贝叶斯算法须要特征条件独立性如果,即样本各个特征之间相互独立. 一.朴素贝叶斯模型 朴素贝叶斯算法通过训练数据集学习联合概率分布p(x,y),其中x=(x1,x2,...,xn)∈Rn,y∈R.详细的对于K分类问题就是须要学习一个类别的先验概率分布p(y=ck),k=1,2,...,K和每一个类别下的条件概率分布(如式1-1) p(x|y)=p(x1,x2,...,xn|y)(1-1) 因为朴素贝叶斯算