数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学。

1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,它处理自然语言的方法是否和人类一样。现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的。

计算机科学之父阿兰·图灵最早提出了机器智能的设想,同时也提出了一种来验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明这个机器有智能了。这就是著名的图灵测试(Turing Test)。

1956年夏,28岁的约翰·麦卡锡,以及同年龄的马文·明斯基,37岁的罗切斯特和40岁的香农,他们4人提议在麦卡锡工作的达特茅斯学院开了一个被他们称为“达特茅斯夏季人工智能研究会议”的头脑风暴式的研讨会。参加会议的还有6位年轻的科学家,包括40岁的赫伯特·西蒙和28岁的艾伦·纽维尔。

在这次研讨会上,这10个人讨论当时计算机科学尚未解决的问题,包括人工智能、自认语言处理和神经网络等。人工智能这个提法便是在这次会议上提出的。这10个人中,后来出了4位图灵奖获得者(麦卡锡、明斯基、西蒙和纽维尔)和信息论的发明人香农。

达特茅斯会议的意义超过10个图灵奖。遗憾的是,受历史的局限,这10个世界上最聪明的头脑一个月的火花碰撞,并没有产生什么了不起的思想。这是因为在当时,全世界对自然语言处理的研究都陷入了一个误区。

基于规则的自然语言处理,指的是对自然语言的语法规则、词性和构词法等给这,使用计算机语言进行描述。而对于语义的研究和分析,语义比语法更难在计算机中表达出来。科学家们设计了一种简单的自然语句的语法分析器,希望通过对自然语言语法全面的概括,来逐步解决自然语言理解的问题。

但很快就出现了问题,一些语句在不同的使用环境下有不同的语义。这就需要不断的增加新的语法规则,而且即使写出了涵盖所有自然语言现象的语法规则集合,通过计算机来解析也非常的困难。在20世纪70年代,基于规则的自然语言处理遇到了瓶颈,这么多年的努力也被认为是失败的。

1970年以后统计语言学的出现使得自然语言处理重获新生。有一段关键的历史,IBM为了解决语音识别的问题,提高当时的语音识别率,采用了基于统计的方法,这使得语音识别从实验室走向了实际应用。在基于统计的语言处理出现之后,基于规则和基于统计的争论一直持续了15年左右,随着网页搜索和数据挖掘技术的出现,在客观上大大加速了自然语言处理研究从基于规则的方法到基于统计的方法的转变,最终以基于规则的自然语言处理获得了胜利。

时间: 2024-10-08 23:35:38

数学之美札记:自然语言处理——从规则到统计的相关文章

第二章:自然语言处理———从规则到统计

任何语言,都可以被认为是一种编码方式,而语言的语法规则是编码解码的算法.我们把我们要表达的意思,通过一句话(一种编码)传送出去,听到这句话的人(接到编码信息),理解这句话(解码),从而理解对方要表达的意思.这是一个比较有趣又生动的过程. 自然语言处理可以说是从1950年开始的,至今有60多年的历史.但是在早期的20多年里,由于科学家们都陷入了一个误区(要让机器完成翻译或者语音识别这样只有人类才能完成的事情,必须要机器理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能).今天,稍微内

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

数学之美札记:贾里尼克和现代语言处理

在之前的札记中,尤其是统计语言模型中,我们常提到贾里尼克的名字,弗里德里克·贾里尼克博士是成功将数学原理应用于自然语言处理领域的大师. 贾里尼克博士生于1932年11月18日,卒于2010年9月14日.他生于捷克,少年时经历了二战,父亲是名医生,战争期间死在了集中营,1946年母亲带着全家移民美国. 贾里尼克最初的梦想是成为一名律师,为其父亲辩护,移民美国后,希望子承父业,理想是成为医生,他想进哈佛大学医学院,但他无力承担8年的学费(4年本科加上4年医学院教育).而恰恰麻省理工提供了他一份全额奖

数学之美札记:谈谈中文分词

之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位.西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单.而对于汉语等东方语言,词之间没有明确的分界符,这就需要先对句子进行中文分词. 中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出.简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如"上海大学")就找最长的词匹配, 遇到不认识的字串就分割成

数学之美札记:信息的度量和作用

1948年,香农在著名论文"通信的数学原理"中提出了"信息熵"的概念,解决了信息的度量问题,并且量化出信息的作用. 香农使用了"比特"(Bit)这个概念来度量信息量.一个比特是一位二进制数,计算机中的一个字节是8比特.举个例子,32支球队参加世界杯,赛后猜测谁是冠军,通常只需要5五次,就可以得到答案.(把球队编号1-32,然后提问类似的问题:"冠军在1-16号中吗?",只需要提问五次),可以发现,信息量的比特数和所有情况的对数

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

数学之美-2自然语言处理-从基于规则到基于统计的转变

序:任何一种语言都是信息编码的不同单位,语言的语法规则则是编解码的算法 1 存在的问题:文法覆盖规则太多,要人工写工程巨大,且就算写出涵盖所有自然语言处理现象的规则集合,用计算机解析也非常困难,于是出现了基于统计的NLP. 原文地址:https://www.cnblogs.com/xuechengmeigui/p/12195992.html

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速.有效的方法.它成功的解决了复杂的语音识别.机器翻译等问题. 人类信息交流的发展贯穿了人类的进化和文明的全过程.而自然语言是人类交流信息的工具,语言和通信的联系是天然的.通信的本质就是一个编解码和传输的过程.当自然语言处理的问题回归到通信系统中的解码问题时,很多问题都迎刃而解了. 所谓语音识别,就是听话的人去猜测说话者要表达的意思.这就像通信中,根据接收端收到的信号去分析.理解.还原发送端传送过来的信息.我们平时在说话时

【数学之美笔记】自然语言处理部分(一).md

文字.数字.语言 .信息 数字.文字和自然语言一样,都是信息的载体,他们的产生都是为了记录和传播信息. 但是貌似数学与语言学的关系不大,在很长一段时间内,数学主要用于天文学.力学. 本章,我们将回顾一下信息时代的发展,看语言学如何慢慢与数学联系起来的. 信息 最开始的时候,人类会用声音来传播信息. 这里面的信息的产生.传播.接收.反馈,与现在最先进的通信在原理上没有任何差别. 因为早期人类需要传播的信息量不多,所以不需要语言文字. 但是当人类进步到一定的程度的时候,就需要语言了. 所以我们的祖先