参考书籍:《数学之美》 吴军著
语言和数学的产生都是为了同一个目的:记录和传播信息
1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求——>文字。
2. 文字发展的阶段
- 象形文字(物体的外表):《亚尼的死者之书》;象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类);但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义;
- 楔形文字/拼音文字(抽象编码的概念):罗马体系文字中常用字短、生僻字长(汉语常用字笔画少,生僻字笔画多)——信息论最短编码原理
3. 翻译的起源:不同文明下的人们需要交流(通信)产生的需求
翻译成立的前提条件:不同的文字系统在记录信息的能力上时等价的。
罗塞塔石碑(三种语言记录)的破译带来的启示:
- 文字本身的载体(石头或纸张等)不重要,所承载的信息才是最重要的(Information is what matters!)(信息本身的载体也不重要)
- 信息的冗余是信息安全的保障
- 语言的数据(语料),尤其是双语或者多语的对照语料对翻译至关重要,是从事机器翻译的基础
4. 数字系统:记录物件的数量不断增多产生的需求(承载信息的工具)
对数量进行编码:
- 用不同的符号代表不同的数字概念,如中国人的个十百千万,罗马人的I、V等
- 制定对应的解码规则,如中国数字的乘法(二百万=2*100*1000),罗马数字的加减法(IV = V - I)
5. 口语和书面语
- 日常的白话口语:通信信道宽(讲话快),信息无需压缩,直接传递
- 精简文言文:通信信道窄(书写慢),信息需要压缩后传递
注:日常话——>文言文(压缩)——>日常话(解压缩)
类比视频传输:宽带互联网(宽带传输,高分辨率)和移动互联网(空中频道带宽限制,低分辨率)
6. 《圣经》的抄写:隐含了错误校验的原理
7. 语言和语法
- 语法:语言的编码和解码规则
- 语言:尽管词可以被认为是有限且封闭的集合,但是语言是无限和开放的集合
语言研究方法的争论:
- 语言对:从真实的语句文本(语料)出发——现有的自然语言处理方式
- 语法对:从规则出发
原文地址:https://www.cnblogs.com/hg-love-dfc/p/10280021.html
时间: 2024-10-14 02:25:44