数学之美札记:贾里尼克和现代语言处理

在之前的札记中,尤其是统计语言模型中,我们常提到贾里尼克的名字,弗里德里克·贾里尼克博士是成功将数学原理应用于自然语言处理领域的大师。

贾里尼克博士生于1932年11月18日,卒于2010年9月14日。他生于捷克,少年时经历了二战,父亲是名医生,战争期间死在了集中营,1946年母亲带着全家移民美国。

贾里尼克最初的梦想是成为一名律师,为其父亲辩护,移民美国后,希望子承父业,理想是成为医生,他想进哈佛大学医学院,但他无力承担8年的学费(4年本科加上4年医学院教育)。而恰恰麻省理工提供了他一份全额奖学金(为东欧移民设的),贾里尼克选择了麻省理工学电机工程。由此开启了他迈向成功的第一步。

在麻省理工,他遇到了很多世界级的大师,包括信息量的鼻祖香农博士、语言学大师雅各布森(提出了著名的通信六要素)。后来贾里尼克的太太从捷克来到美国,在哈佛大学求学,贾里尼克经常到哈佛旁听。在那里,他经常去听伟大的语言学家乔姆斯基的课。这三位大师对贾里尼克后来的研究方向——利用信息论解决语言问题产生了重要影响。

每一个搞语音识别和语言处理的人都熟知这样一句话:我每开除一名语言学家,我的语音识别系统识别率就会提高一点。这句话来源于这样一则故事:贾里尼克从麻省理工获得博士学位后,在哈佛教了一年书,之后到康奈尔大学任教,成了贾里尼克教授。他之所以选择康奈尔大学,是因为在找工作时和那里的一位语言学家哈克特谈得很融洽。当时那位教授表态愿意和贾里尼克在利用信息论结局语音问题上进行合作。但是,后来那位教授食言了。贾里尼克对语言学家的坏印象从此开始。后来在IBM时发现语言学家嘴上头头是道,工作时却高低不就,对语言学家从此深恶痛绝,后来就有了那句“名言”。

1972年,贾里尼克到IBM华生实验室休假,无意间领导了语音识别实验室,并在两年后跳槽到了IBM。在哪里,他组建了阵容强大的研究队伍,包括他的著名搭档波尔、著名的语音识别Dragon公司的创始人贝克夫妇、解决最大熵迭代算法的达拉皮垂孪生兄弟、BCJR算法的另外两个共同提出者库克和拉维夫、以及第一个提出机器翻译统计模型的布朗。就连当前资历最浅的小字辈任务拉法特现在也成了著名的学者。

在IBM,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克之前,科学家把语音识别问题当作人工只能和模型匹配问题。而贾里尼克把它当作通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括的清清楚楚。这个框架对至今的语音和语言处理有着深远的影响,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。

贾里尼克和波尔、库克以及拉维夫对人类的一大贡献是BCJR算法,这是今天数学通信中应用最广的两个算法之一(另一个是维特比算法)。不过在这个算法发明20年后,才得以广泛应用。IBM把它列为IBM有史以来对人类的最大贡献之一,并贴在加州阿莫顿实验室墙上。不过,后来BCJR的四个人全部离开了IBM。

贾里尼克和IBM一批最杰出的科学家在上个世纪90年代初离开了IBM,他们中的大多数后来都成为了千万甚至亿万富翁,但贾里尼克不是个能闲下来的人,1994,他去约翰·霍普金斯大学建立了世界著名的CLSP(Center for Language and Speed Processing)实验室。在贾里尼克到约翰·霍普金斯大学之前,这所以医学闻名的大学在工程领域并不拔尖,也完全没有语音识别和自然语言处理这样的新兴学科。贾里尼克从零开始,在短短两三年内就将CLSP变成了世界上一流的研究中心。

贾里尼克在70多岁以后仍然头脑敏锐,并且每天按时上班。2010年9月14日,他在办公桌前因心脏病发作而不幸离世。他在别人退休、安度晚年的年龄开始创立当今世界学术界最大的语音和语言处理中心,并且工作到了生命的最后一天。由于他有大量的学生和朋友在Google工作,这些人和Google公司为约翰·霍普金斯大学捐赠了一笔钱,创立了贾里尼克奖学金。

时间: 2024-11-09 03:10:27

数学之美札记:贾里尼克和现代语言处理的相关文章

数学之美札记:信息的度量和作用

1948年,香农在著名论文"通信的数学原理"中提出了"信息熵"的概念,解决了信息的度量问题,并且量化出信息的作用. 香农使用了"比特"(Bit)这个概念来度量信息量.一个比特是一位二进制数,计算机中的一个字节是8比特.举个例子,32支球队参加世界杯,赛后猜测谁是冠军,通常只需要5五次,就可以得到答案.(把球队编号1-32,然后提问类似的问题:"冠军在1-16号中吗?",只需要提问五次),可以发现,信息量的比特数和所有情况的对数

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

数学之美札记:谈谈中文分词

之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位.西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单.而对于汉语等东方语言,词之间没有明确的分界符,这就需要先对句子进行中文分词. 中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出.简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如"上海大学")就找最长的词匹配, 遇到不认识的字串就分割成

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速.有效的方法.它成功的解决了复杂的语音识别.机器翻译等问题. 人类信息交流的发展贯穿了人类的进化和文明的全过程.而自然语言是人类交流信息的工具,语言和通信的联系是天然的.通信的本质就是一个编解码和传输的过程.当自然语言处理的问题回归到通信系统中的解码问题时,很多问题都迎刃而解了. 所谓语音识别,就是听话的人去猜测说话者要表达的意思.这就像通信中,根据接收端收到的信号去分析.理解.还原发送端传送过来的信息.我们平时在说话时

数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学. 1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言:第二,如果能,它处理自然语言的方法是否和人类一样.现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的. 计算机科学之父阿兰·图灵最早提出了

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]

读《数学之美》

其实准备读<数学之美>这本书,是从很久开始的.记得去年夏天的时候,是读了<浪潮之巅>,然后就认识了吴军这样的一个人,很喜欢他的写作风格.于是就准备读<数学之美>的. <数学之美>这本书,本身和<浪潮之巅>一样,已经在众多的读者中有了一个很好的口碑了,吴军博士本身的才学和研究,对于更多的人来说,也形成了一种尊重的心理.在我读了<浪潮之巅>后,有种很厚重的历史沧桑感堆积于胸.不得不承认<浪潮之巅>对于我的影响. <数学之

数学之美 (第二版) pdf

下载地址:网盘下载 内容简介  · · · · · · 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链.矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣. 在纸本书的创作中,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力.读者通过具体的例子学到的是思考问题的方式 -