《数学之美》——第二章 个人笔记

第二章    自然语言处理——从规则到统计

这一章开头这句话:字母,文字,数字是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字。别人懂这门语言的编码方式,就会理解。这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了。这就是语言的数学本质。

?①计算机能处理自然语言

?②它处理自然语言的方法和人类一样

1 机器智能

有意思的词:‘鸟飞派’:看看鸟是怎么飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。

下图是前人对自然语言处理的想法(走的弯路)

单纯基于文法规则的分析器是处理不了复杂的语句的,里面有两个不可逾越的坎儿:

①文法规则的数量太庞大,无法构建;写到后面还会出现矛盾

②描述自然语言的文法和计算机高级程序语言的文法是不同的,计算机难以解析。作者在这里提到了自然语言在演变过程中产生了词义和上下文相关的特性;对于上下文无关文法,算法的复杂度是语句长度的二次方,而对于有关文法,则是六次方。

2 从规则到统计

有趣的例子:The pan is in the box ,The box is in the pen 。这个栗子说明了语义的难处理。再有统计语言学的出现,不久后NLP从规则到统计。

PS:文中有一段讲斯伯格特对未来研究方向的判断,总让我觉得大牛都是开挂的。还有传统捍卫者的武器就是基于统计的方法只能处理浅层的NLP问题。

3 小结

基于统计的NLP方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上NLP又和语言的初衷——通信联系在一起了。(这里基于统计的方法是让计算机能够处理NL

原文地址:https://www.cnblogs.com/NEWzyz/p/8932981.html

时间: 2024-11-09 22:09:39

《数学之美》——第二章 个人笔记的相关文章

Android深度探索——第二章读书笔记及心得

Android开发环境搭建 ——第二章读书笔记及心得 通过本章的学习了解了如何对Ubuntu Linux下的Android进行搭建,包括搭建Android应用程序开发环境.Android NDK开发环境和交叉编译环境的搭建.了解了搭建Android环境所需要的各种东西,了解了配置ADT的必要性—以便ADT能够找到Android SDK.知道了底层开发所需要的各种工具.学会了如何在Ubuntu下安装JDK.以及编译交叉编译环境,当初在学习Linux交叉环境编译的时候就不是特别成功,中间出了很多的错

数学之美 (第二版) pdf

下载地址:网盘下载 内容简介  · · · · · · 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链.矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣. 在纸本书的创作中,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力.读者通过具体的例子学到的是思考问题的方式 -

每周一书《数学之美 第二版》分享!

内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链.矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣. 在纸本书的创作中,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力.读者通过具体的例子学到的是思考问题的方式 -- 如何化繁为简,如何用数学去解决工程问题,如

Python核心编程第三版第二章学习笔记

第二章 网络编程 1.学习笔记 2.课后习题 答案是按照自己理解和查阅资料来的,不保证正确性.如由错误欢迎指出,谢谢 1. 套接字:A network socket is an endpoint of a connection across a computer network,Sockets are often represented internally as simple integers, which identify which connection to use. 套接字是网络通信的

《HeadFirst Python》第二章学习笔记

现在,请跟着舍得的脚步,打开<HeadFirst Python>第二章. 一章的内容其实没有多少,多练习几次就能掌握一个大概了! <HeadFirst Python>的第二章设计得很有意思.它直接从制作一个模块入手,顺带讲了模块的导入,传统的书可不会这么搞. 不过书中关于编辑器的观点略显陈旧. 最好的编辑器是什么? 别用书中推荐的Python自带IDLE,在现阶段,请使用Jupyter Notebook来进行各项练习. 等学完这本书后,你可以选择PyCharm/Eric6/Wing

Machine Learning In Action 第二章学习笔记: kNN算法

本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数字识别 通过“约会对象”功能,基本能够了解到kNN算法的工作原理.“手写数字识别”与“约会对象预测”使用完全一样的算法代码,仅仅是数据集有变化. 约会对象预测 1 约会对象预测功能需求 主人公“张三”喜欢结交新朋友.“系统A”上面注册了很多类似于“张三”的用户,大家都想结交心朋友.“张三”最开始通过自己筛选的

《大道至简》第二章阅读笔记

<大道至简>这本书在第二章中的主要内容是“懒人创造方法”!因为一个勤勤恳恳.老实工作的人是不太可能会懂得创新的,因为他只知道认真仔细的工作,一点一滴.一丝不苟.按部就班的按照上司交给他的内容,因为他认真负责,不容许自己出现一点纰漏.而懒人则不一样了,因为工作量庞大,所以他们自己因为懒惰而各种寻找方法,从而减轻自己的工作量,动脑筋让自己的实际工作量减到最小,而这时就需要开动脑筋,让自己想出一个可行的办法,从而实现自己的目的. 在这本书的第二章开头,还是延续了这本书的惯例,用一个寓言小故事来引入本

《番茄工作法图解》第二章阅读笔记

<番茄工作法图解>第二章 背景 通过执行一套相同的动作和准备程序,可以使大脑自我调整,进入执行某类事务的最佳状态. 多巴胺神经递质的职责之一是保持人的警觉性.一种理论解释为什么有些人常常多动,是因为大脑要弥补多巴胺产量的不足,从而增加了肾上腺素的产生. 要让注意力处于最佳状态,需要在半小时之间进行短暂休息,每周安排不超过40小时的工作计划.我的经验告诉我,采取可持续的步伐,是工作卓有成效的前提. 在短期记忆中信息通畅以声音形势存储.与此相对,在长期记忆中信息通常以语义形势存储.延迟回忆更容易记

第二章随身笔记

 第二章:   1.搭建android应用程序开发环境:  (1)安装JDK:  (2)安装Eclipse:  (3)安装ADT   (4)配置ADT:   (5)建立AVD:   2.安装android NDK 开发环境:   (1)下载android NDK;   (2)安装CDT:   (3)命令行方式编译android NDK 程序:   (4)导入android NDK 例子:   (5)配置android NDK的集成开发环境:    3.安装交叉编译环境.