自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学。
1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,它处理自然语言的方法是否和人类一样。现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的。
计算机科学之父阿兰·图灵最早提出了机器智能的设想,同时也提出了一种来验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明这个机器有智能了。这就是著名的图灵测试(Turing Test)。
1956年夏,28岁的约翰·麦卡锡,以及同年龄的马文·明斯基,37岁的罗切斯特和40岁的香农,他们4人提议在麦卡锡工作的达特茅斯学院开了一个被他们称为“达特茅斯夏季人工智能研究会议”的头脑风暴式的研讨会。参加会议的还有6位年轻的科学家,包括40岁的赫伯特·西蒙和28岁的艾伦·纽维尔。
在这次研讨会上,这10个人讨论当时计算机科学尚未解决的问题,包括人工智能、自认语言处理和神经网络等。人工智能这个提法便是在这次会议上提出的。这10个人中,后来出了4位图灵奖获得者(麦卡锡、明斯基、西蒙和纽维尔)和信息论的发明人香农。
达特茅斯会议的意义超过10个图灵奖。遗憾的是,受历史的局限,这10个世界上最聪明的头脑一个月的火花碰撞,并没有产生什么了不起的思想。这是因为在当时,全世界对自然语言处理的研究都陷入了一个误区。
基于规则的自然语言处理,指的是对自然语言的语法规则、词性和构词法等给这,使用计算机语言进行描述。而对于语义的研究和分析,语义比语法更难在计算机中表达出来。科学家们设计了一种简单的自然语句的语法分析器,希望通过对自然语言语法全面的概括,来逐步解决自然语言理解的问题。
但很快就出现了问题,一些语句在不同的使用环境下有不同的语义。这就需要不断的增加新的语法规则,而且即使写出了涵盖所有自然语言现象的语法规则集合,通过计算机来解析也非常的困难。在20世纪70年代,基于规则的自然语言处理遇到了瓶颈,这么多年的努力也被认为是失败的。
1970年以后统计语言学的出现使得自然语言处理重获新生。有一段关键的历史,IBM为了解决语音识别的问题,提高当时的语音识别率,采用了基于统计的方法,这使得语音识别从实验室走向了实际应用。在基于统计的语言处理出现之后,基于规则和基于统计的争论一直持续了15年左右,随着网页搜索和数据挖掘技术的出现,在客观上大大加速了自然语言处理研究从基于规则的方法到基于统计的方法的转变,最终以基于规则的自然语言处理获得了胜利。