数学之美 第1章 文字和语言 vs 数字和信息

参考书籍:《数学之美》 吴军著

语言和数学的产生都是为了同一个目的:记录和传播信息

1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求——>文字。

2. 文字发展的阶段

  • 象形文字(物体的外表):《亚尼的死者之书》;象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类);但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义;
  • 楔形文字/拼音文字(抽象编码的概念):罗马体系文字中常用字短、生僻字长(汉语常用字笔画少,生僻字笔画多)——信息论最短编码原理

3. 翻译的起源:不同文明下的人们需要交流(通信)产生的需求

翻译成立的前提条件:不同的文字系统在记录信息的能力上时等价的。

罗塞塔石碑(三种语言记录)的破译带来的启示:

  • 文字本身的载体(石头或纸张等)不重要,所承载的信息才是最重要的(Information is what matters!)(信息本身的载体也不重要)
  • 信息的冗余是信息安全的保障
  • 语言的数据(语料),尤其是双语或者多语的对照语料对翻译至关重要,是从事机器翻译的基础

4. 数字系统:记录物件的数量不断增多产生的需求(承载信息的工具)

对数量进行编码:

  • 用不同的符号代表不同的数字概念,如中国人的个十百千万,罗马人的I、V等
  • 制定对应的解码规则,如中国数字的乘法(二百万=2*100*1000),罗马数字的加减法(IV =  V - I)

5. 口语和书面语

  • 日常的白话口语:通信信道宽(讲话快),信息无需压缩,直接传递
  • 精简文言文:通信信道窄(书写慢),信息需要压缩后传递

  注:日常话——>文言文(压缩)——>日常话(解压缩)

  类比视频传输:宽带互联网(宽带传输,高分辨率)和移动互联网(空中频道带宽限制,低分辨率)

6. 《圣经》的抄写:隐含了错误校验的原理

7. 语言和语法

  • 语法:语言的编码和解码规则
  • 语言:尽管词可以被认为是有限且封闭的集合,但是语言是无限和开放的集合

语言研究方法的争论:

  • 语言对:从真实的语句文本(语料)出发——现有的自然语言处理方式
  • 语法对:从规则出发

原文地址:https://www.cnblogs.com/hg-love-dfc/p/10280021.html

时间: 2024-10-14 02:25:44

数学之美 第1章 文字和语言 vs 数字和信息的相关文章

数学之美札记:文字和语言 vs 数字和信息

数学.文字和自然语言一样,都是信息的载体,他们之间有着天然的联系.语言和数学的产生都是为了同一样目的--记录和传播信息.本文是<数学之美>第一章札记. 1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字.埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑. 1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字.随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人

数学之美 第2章 自然语言处理:从规则到统计

参考书籍:<数学之美> 吴军著 任何语言都是一种编码方式,语言的规则则是编解码的算法. 1. 计算机能否处理自然语言?如果能,它处理自然语言的方法和人类一样吗? Yes and Yes(上下文相关的.基于语料统计的方法) 2. 图灵测试:让人和机器进行交流,如果人无法判断自己交流得对象是人还是机器,就说明这个机器是有智能的. 3. 基于规则的句法分析("鸟飞派"):语法分析.语义分析-->失败:语法规则过多,计算量太大(甚至相互矛盾)+ 语义的多义性严重依赖上下文 高

《数学之美》——第二章 个人笔记

第二章    自然语言处理--从规则到统计 这一章开头这句话:字母,文字,数字是信息编码的不同单位.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法.我们表达一个意思要通过语言表达出来,就是用这种语言的编码方式表示出来,结果就输出一串文字.别人懂这门语言的编码方式,就会理解.这里说的输出一串文字,可以是字母,数字(计算机理解),和开头说的信息编码的不同单位是符合的,就很好理解了.这就是语言的数学本质. ?①计算机能处理自然语言 ?②它处理自然语言的方法和人类一样 1 机器智能 有意

《数学之美》读书

也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录. 第一版读者赞誉 第二版出版说明 第一版序言 第二版序言 第二版前言 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处理 第8章 简单之美--布尔代数和搜索引擎 第9章 图论和网络爬虫 第10章 PageRank--Google的民主表决式网页排名技术 第

读《数学之美》

其实准备读<数学之美>这本书,是从很久开始的.记得去年夏天的时候,是读了<浪潮之巅>,然后就认识了吴军这样的一个人,很喜欢他的写作风格.于是就准备读<数学之美>的. <数学之美>这本书,本身和<浪潮之巅>一样,已经在众多的读者中有了一个很好的口碑了,吴军博士本身的才学和研究,对于更多的人来说,也形成了一种尊重的心理.在我读了<浪潮之巅>后,有种很厚重的历史沧桑感堆积于胸.不得不承认<浪潮之巅>对于我的影响. <数学之

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]

数学之美 (第二版) pdf

下载地址:网盘下载 内容简介  · · · · · · 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链.矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣. 在纸本书的创作中,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力.读者通过具体的例子学到的是思考问题的方式 -

每周一书《数学之美 第二版》分享!

内容简介 几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链.矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣. 在纸本书的创作中,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力.读者通过具体的例子学到的是思考问题的方式 -- 如何化繁为简,如何用数学去解决工程问题,如

《数学之美》知识点详细总结

<数学之美>知识点详细总结 原创作品, 转载请注明出处:[ Mr.Scofield  http://blog.csdn.net/scotfield_msn/article/details/69264939  ] From`RxNLP`Scofield 未完待续-- <数学之美>这本书在本科期间电子版上偶尔进行了翻阅,后来有时间了就完整的进行了阅读.出于老习惯,看完一本书后总会去总结书本的知识点层次框架,以更好地融入到原有的框架中.尤其是现入坑NLP,作为入门书,更应是好好吸收下.