【数学之美】第3章 统计语言模型

用数学的方法描述语言规律

贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量

Markov模型:简化条件概率运算。

二元模型 Bigram model,N元模型

为什么合理?上下文相关,短程依赖。

不足之处:忽略长程依赖性 Long Distance Dependency

N的取值?tradeoff,同时关注:效果的提升,资源的耗费

模型训练的问题:零概率问题(不平滑)

解决办法:平滑方法

理论基础:

Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen
Events)

(IBM)Katz backoff

语料的选取问题:训练语料尽量和模型应用的领域相结合

训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据

需要过滤训练数据

时间: 2024-10-23 23:49:51

【数学之美】第3章 统计语言模型的相关文章

读《数学之美》第三章 统计语言模型

自然语言从产生开始,逐渐演变为一种基于上下文相关的信息表达和传递方式,在计算机处理自然语言时,一个最基本的问题就是为自然语言上下文相关的特性建立数学模型,叫做统计语言模型(Statistical Language Model),它是自然语言处理的基础,广泛应用于机器翻译.语音识别.印刷体或手写体识别.拼音纠错.汉字输入和文献查询等. 对于一句通顺的话<1>,如果改变一些词的顺序,或替换掉一些词<2>,它的意思就含糊了,如果随机打乱<3>,则完全不知所云了.对于<1

数学之美 第2章 自然语言处理:从规则到统计

参考书籍:<数学之美> 吴军著 任何语言都是一种编码方式,语言的规则则是编解码的算法. 1. 计算机能否处理自然语言?如果能,它处理自然语言的方法和人类一样吗? Yes and Yes(上下文相关的.基于语料统计的方法) 2. 图灵测试:让人和机器进行交流,如果人无法判断自己交流得对象是人还是机器,就说明这个机器是有智能的. 3. 基于规则的句法分析("鸟飞派"):语法分析.语义分析-->失败:语法规则过多,计算量太大(甚至相互矛盾)+ 语义的多义性严重依赖上下文 高

数学之美 第1章 文字和语言 vs 数字和信息

参考书籍:<数学之美> 吴军著 语言和数学的产生都是为了同一个目的:记录和传播信息 1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求-->文字. 2. 文字发展的阶段 象形文字(物体的外表):<亚尼的死者之书>:象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类):但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义: 楔形文字/拼音文字(抽象编

《数学之美》——第二章 个人笔记

第二章    自然语言处理--从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能 有意

《数学之美》读书

也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录. 第一版读者赞誉 第二版出版说明 第一版序言 第二版序言 第二版前言 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处理 第8章 简单之美--布尔代数和搜索引擎 第9章 图论和网络爬虫 第10章 PageRank--Google的民主表决式网页排名技术 第

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

第三章:统计语言模型

1.用数学方法描述规律 由于自然语言具有上下文相关性,所以我们要依此建模,这就是我们常说的统计语言模型(statistical Language Model). 比如一句话:国家主席习近ping昨天宣布将给非洲提供100亿美元的资金,帮助他们发展. 这句话很容易理解.但是如果换成:习近ping国家主席将宣布100亿美元的资金,帮助他们发展给非洲.这样意思含混了,虽然多少还能猜到一点.但是如果换成习近ping昨天宣布将给非洲国家主席提供100亿美元的资,帮助他们金发展.基本上读者就不知所云了. 针

《数学之美》——第四章 个人笔记

第四章     谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行. 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串.不足之处在于二义性. 郭进(清华):统计语言模型方法,文中有详细的公式说明.就是对一句话可能有S种分法,其中有一种分法出现的概率最大.里面涉及到动态规划和维特比算法,有张图表示过程: 这里提到:统计语言模型很大程度是依照''大众的想法'',或者说''多数句子的用法'',百分百是不可能的. 有关分词的两点说明: