数学之美 第2章 自然语言处理:从规则到统计

参考书籍:《数学之美》 吴军著

任何语言都是一种编码方式,语言的规则则是编解码的算法。

1. 计算机能否处理自然语言?如果能,它处理自然语言的方法和人类一样吗?  Yes and Yes(上下文相关的、基于语料统计的方法)

2. 图灵测试:让人和机器进行交流,如果人无法判断自己交流得对象是人还是机器,就说明这个机器是有智能的。

3. 基于规则的句法分析(“鸟飞派”):语法分析、语义分析——>失败:语法规则过多,计算量太大(甚至相互矛盾)+ 语义的多义性严重依赖上下文

高级程序语言:人为设计的、便于计算机解码的上下文无关文法;

自然语言:词义和上下文相关,即上下文有关文法(根本原因)

4. 基于统计的方法的核心模型:通信系统 + 隐马尔科夫模型

应用进展:语音识别(弗里德里克·贾里尼克)——> 词性分析 ——> 机器翻译(最初效果很差,随着计算能力的提高和数据量的增加,统计模型的正确性逐渐显现)

转变的推动力:新的应用依赖于数据的作用和浅层的自然语言处理工作

原文地址:https://www.cnblogs.com/hg-love-dfc/p/10285489.html

时间: 2024-10-10 05:35:37

数学之美 第2章 自然语言处理:从规则到统计的相关文章

《数学之美》——第二章 个人笔记

第二章    自然语言处理--从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能 有意

第二章:自然语言处理———从规则到统计

任何语言,都可以被认为是一种编码方式,而语言的语法规则是编码解码的算法.我们把我们要表达的意思,通过一句话(一种编码)传送出去,听到这句话的人(接到编码信息),理解这句话(解码),从而理解对方要表达的意思.这是一个比较有趣又生动的过程. 自然语言处理可以说是从1950年开始的,至今有60多年的历史.但是在早期的20多年里,由于科学家们都陷入了一个误区(要让机器完成翻译或者语音识别这样只有人类才能完成的事情,必须要机器理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能).今天,稍微内

数学之美 第1章 文字和语言 vs 数字和信息

参考书籍:<数学之美> 吴军著 语言和数学的产生都是为了同一个目的:记录和传播信息 1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求-->文字. 2. 文字发展的阶段 象形文字(物体的外表):<亚尼的死者之书>:象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类):但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义: 楔形文字/拼音文字(抽象编

数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学. 1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言:第二,如果能,它处理自然语言的方法是否和人类一样.现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的. 计算机科学之父阿兰·图灵最早提出了

《数学之美》读书

也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录. 第一版读者赞誉 第二版出版说明 第一版序言 第二版序言 第二版前言 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处理 第8章 简单之美--布尔代数和搜索引擎 第9章 图论和网络爬虫 第10章 PageRank--Google的民主表决式网页排名技术 第

【数学之美笔记】自然语言处理部分(一).md

文字.数字.语言 .信息 数字.文字和自然语言一样,都是信息的载体,他们的产生都是为了记录和传播信息. 但是貌似数学与语言学的关系不大,在很长一段时间内,数学主要用于天文学.力学. 本章,我们将回顾一下信息时代的发展,看语言学如何慢慢与数学联系起来的. 信息 最开始的时候,人类会用声音来传播信息. 这里面的信息的产生.传播.接收.反馈,与现在最先进的通信在原理上没有任何差别. 因为早期人类需要传播的信息量不多,所以不需要语言文字. 但是当人类进步到一定的程度的时候,就需要语言了. 所以我们的祖先

读《数学之美》

其实准备读<数学之美>这本书,是从很久开始的.记得去年夏天的时候,是读了<浪潮之巅>,然后就认识了吴军这样的一个人,很喜欢他的写作风格.于是就准备读<数学之美>的. <数学之美>这本书,本身和<浪潮之巅>一样,已经在众多的读者中有了一个很好的口碑了,吴军博士本身的才学和研究,对于更多的人来说,也形成了一种尊重的心理.在我读了<浪潮之巅>后,有种很厚重的历史沧桑感堆积于胸.不得不承认<浪潮之巅>对于我的影响. <数学之

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人