【数学之美】第3章统计语言模型

用数学的方法描述语言规律

贾里尼克：一个句子是否合理，等同于判断其可能性的大小，用概率来衡量

Markov模型：简化条件概率运算。

二元模型 Bigram model，N元模型

为什么合理？上下文相关，短程依赖。

不足之处：忽略长程依赖性 Long Distance Dependency

N的取值？tradeoff，同时关注：效果的提升，资源的耗费

模型训练的问题：零概率问题（不平滑）

解决办法：平滑方法

理论基础：

Good-Turing Estimate: 相信可靠的统计数据，对不可信的统计数据打折扣，将折扣出来的小部分概率给予为看见的事件 (Unseen
Events)

（IBM）Katz backoff

语料的选取问题：训练语料尽量和模型应用的领域相结合

训练数据尽可能多。但在某些领域（如机器翻译的双语语料）训练数据很少，无法追求大量数据

需要过滤训练数据

时间： 2024-10-23 23:49:51

【数学之美】第3章统计语言模型的相关文章

读《数学之美》第三章统计语言模型

自然语言从产生开始,逐渐演变为一种基于上下文相关的信息表达和传递方式,在计算机处理自然语言时,一个最基本的问题就是为自然语言上下文相关的特性建立数学模型,叫做统计语言模型(Statistical Language Model),它是自然语言处理的基础,广泛应用于机器翻译.语音识别.印刷体或手写体识别.拼音纠错.汉字输入和文献查询等. 对于一句通顺的话<1>,如果改变一些词的顺序,或替换掉一些词<2>,它的意思就含糊了,如果随机打乱<3>,则完全不知所云了.对于<1

数学之美第2章自然语言处理：从规则到统计

参考书籍:<数学之美> 吴军著任何语言都是一种编码方式,语言的规则则是编解码的算法. 1. 计算机能否处理自然语言?如果能,它处理自然语言的方法和人类一样吗? Yes and Yes(上下文相关的.基于语料统计的方法) 2. 图灵测试:让人和机器进行交流,如果人无法判断自己交流得对象是人还是机器,就说明这个机器是有智能的. 3. 基于规则的句法分析("鸟飞派"):语法分析.语义分析-->失败:语法规则过多,计算量太大(甚至相互矛盾)+ 语义的多义性严重依赖上下文高

数学之美第1章文字和语言 vs 数字和信息

参考书籍:<数学之美> 吴军著语言和数学的产生都是为了同一个目的:记录和传播信息 1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求-->文字. 2. 文字发展的阶段象形文字(物体的外表):<亚尼的死者之书>:象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类):但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义: 楔形文字/拼音文字(抽象编

《数学之美》——第二章个人笔记

第二章自然语言处理--从规则到统计这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能有意

《数学之美》读书

也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录. 第一版读者赞誉第二版出版说明第一版序言第二版序言第二版前言第1章文字和语言 vs 数字和信息第2章自然语言处理--从规则到统计第3章统计语言模型第4章谈谈分词第5章隐含马尔可夫模型第6章信息的度量和作用第7章贾里尼克和现代语言处理第8章简单之美--布尔代数和搜索引擎第9章图论和网络爬虫第10章 PageRank--Google的民主表决式网页排名技术第

数学之美札记：文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

数学之美札记：统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

第三章：统计语言模型

1.用数学方法描述规律由于自然语言具有上下文相关性,所以我们要依此建模,这就是我们常说的统计语言模型(statistical Language Model). 比如一句话:国家主席习近ping昨天宣布将给非洲提供100亿美元的资金,帮助他们发展. 这句话很容易理解.但是如果换成:习近ping国家主席将宣布100亿美元的资金,帮助他们发展给非洲.这样意思含混了,虽然多少还能猜到一点.但是如果换成习近ping昨天宣布将给非洲国家主席提供100亿美元的资,帮助他们金发展.基本上读者就不知所云了. 针

《数学之美》——第四章个人笔记

第四章谈谈分词 1 中文分词方法的演变最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行. 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串.不足之处在于二义性. 郭进(清华):统计语言模型方法,文中有详细的公式说明.就是对一句话可能有S种分法,其中有一种分法出现的概率最大.里面涉及到动态规划和维特比算法,有张图表示过程: 这里提到:统计语言模型很大程度是依照''大众的想法'',或者说''多数句子的用法'',百分百是不可能的. 有关分词的两点说明:

【数学之美】第3章 统计语言模型

【数学之美】第3章 统计语言模型的相关文章

【数学之美】第3章统计语言模型

【数学之美】第3章统计语言模型的相关文章