第二章:自然语言处理———从规则到统计

任何语言,都可以被认为是一种编码方式,而语言的语法规则是编码解码的算法。我们把我们要表达的意思,通过一句话(一种编码)传送出去,听到这句话的人(接到编码信息),理解这句话(解码),从而理解对方要表达的意思。这是一个比较有趣又生动的过程。

自然语言处理可以说是从1950年开始的,至今有60多年的历史。但是在早期的20多年里,由于科学家们都陷入了一个误区(要让机器完成翻译或者语音识别这样只有人类才能完成的事情,必须要机器理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能)。今天,稍微内行一点的人,都知道自然语言处理靠的全都是数学,更准确地说是统计学。

大家都知道,要学好一门外语,都要学它的语法规则,词性,构词法等,其实这些都是基于规则的自然语言处理过程。

那时有一个语法分析工具Parser(非现在的standford parser),能对一句话,构造一颗语法分析树,标出主谓宾,以及词语间的修饰关系。但是早期,在面对稍微长一点的句子时,就比较难办了。首先,要通过文法规则覆盖哪怕20%的真实语句,文法规则的数量至少是几万条;其次,就算能写出涵盖所有自然语言现象的语法规则集合,用计算机解析它也是相当困难的,因为自然语言不像编程语言,自然语言有上下文相关性。

可见,基于规则的句法分析是行不通的。因为上下文相关性,我们需要联系上下文来判断某一单词的意思。在1970年之前,自然语言处理的努力是相当失败的。直到1970年以后,统计语言学的出现,打破了这一局面。推动这个转变的关键任务是佛里德里克·贾里尼克和他的IBM华生实验室。而在2005年,Google基于统计的翻译系统全面超过基于规则方法的SysTran翻译系统,基于规则方法固守的最后一个堡垒被拔掉了。

今天,几乎不会有科学家宣称自己是传统的基于规则方法的捍卫者了。而建立在数学模型上的基于统计的自然语言方法已经成为主流。

第二章:自然语言处理———从规则到统计

时间: 2024-11-02 20:38:39

第二章:自然语言处理———从规则到统计的相关文章

数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学. 1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言:第二,如果能,它处理自然语言的方法是否和人类一样.现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的. 计算机科学之父阿兰·图灵最早提出了

《数学之美》——第二章 个人笔记

第二章    自然语言处理--从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能 有意

从规则到统计与统计语言模型

http://blog.csdn.net/u012637501 一.自然语言处理-从规则到统计 1.基于规则的自然语言处理 在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言.当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义.由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则.词性和构词法对于学习西方语言尤为重要,并且当时语法规则又非常容易用计算机的算法来描述,所有当时的一些科学家就更坚定的认为基于规则才是自然语言处理最好的方法.然而,事实

李航老师的《统计学习方法》第二章算法的matlab程序

参考了http://blog.sina.com.cn/s/blog_bceeae150102v11v.html#post % 感知机学习算法的原始形式,算法2.1参考李航<统计学习方法>书中第二章的算法P29 close allclear allclcX=[3,3;4,3;1,1];Y=[1,1,-1];%训练数据集及标记learnRate=1;%学习率Omega=zeros(1,size(X,2))b=0 %% ω和b的初值 i=1;k=0;while 1 if Y(i)*(sum(Omeg

统计学习方法 笔记&lt;第二章 感知机&gt;

第二章 感知机 感觉感知机这东西还是很简单的,随便写点. 感知机(perceptron)是二分类的线性分类器. 输入x表示实例的特征向量,输出y为实例的类别,由如下函数表示: 其中w为权值(weight)或权值向量(weight vector),b表示偏置(bias),sign为符号函数,里面的东西大于0就是1,否则是-1. 感知机属于判别模型(直接寻找输入到输出的映射函数,不关心联合概率什么的). 感知机的解释:wx + b = 0 对应于特征空间中的一个超平面S(超平面这个东西在二维上表示为

深入浅出Zabbix 3.0 -- 第二章 Zabbix Web操作与定义

第二章  Zabbix Web操作与定义 本章介绍Zabbix 中一些基本概念的定义和web前端页面的操作,包括Zabbix中使用的一些术语的定义,Web页面中用户管理.主机和主机组的管理,以及监控项.模板.触发器.告警的管理和操作,还有Graphs.Screens.Maps及Reports等.通过本章的学习掌握一些基本概念并能够通过Web页面的操作完成对Zabbix的管理. 2.1 定义 hosts(主机) Zabbix中需要监控的服务器.交换机及其他设备我们都统一称作host,这些设备与Za

用 WEKA 进行数据挖掘——第二章: 回归

回归 回归是最为简单易用的一种技术,但可能也是最不强大(这二者总是相伴而来,很有趣吧).此模型可以简单到只有一个输入变量和一个输出变量(在 Excel 中称为 Scatter 图形,或 OpenOffice.org 内的 XYDiagram).当然,也可以远比此复杂,可以包括很多输入变量.实际上,所有回归模型均符合同一个通用模式.多个自变量综合在一起可以生成一个结果 — 一个因变量.然后用回归模型根据给定的这些自变量的值预测一个未知的因变量的结果. 每个人都可能使用过或看到过回归模型,甚至曾在头

高项3.7日第一次课,第一章信息化基础知识与第二章信息系统服务管理梳理

第一章 信息化的基础知识 1.国家信息化体系要素: 主要包括6要素,信息技术应用(龙头).信息资源(关键).信息网络(必要手段).信息技术产业(基础).信息化人才(成功之本).信息化法规政策和规范(保障). 2.电子政务: 电子政务建设的指导原则: (1)统一规划,加强领导. (2)需求主导,突出重点. (3)统一规划,拉动产业. (4)统一标准,保障安全. 主要任务: (1)电子政务网络由政务内网和政务外网构成,两网之间物理隔离,政务外网与互联网之间逻辑隔离.政务内网主要是副省级以上政务部门的

第二章 知识图谱——机器大脑中的知识库

第二章 知识图谱——机器大脑中的知识库 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.——[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案.如下图所示,当用户输