数学之美札记：文字和语言 vs 数字和信息

数学、文字和自然语言一样，都是信息的载体，他们之间有着天然的联系。语言和数学的产生都是为了同一样目的——记录和传播信息。本文是《数学之美》第一章札记。

1798年，拿破仑远征军中，皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑，上面有三种语言：埃及象形文字、埃及的拼音文字和古希腊文，这就是著名的罗塞塔（Rosetta）石碑。

1822年，法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字。随着罗塞塔石碑的破译，帮助我们了解了整个古埃及的历史和文明，这要归功于埃及人通过三种语言进行了记录，这件事有两点指导意义：

信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次，因此只要有一份内容完好保留下来，原有的信息就不会丢失，这对信道编码有指导意义。
语言的数据，即语料，尤其是双语或者多语的对照语料对翻译至关重要，它是我们从事机器翻译研究的基础。

计数系统的产生轶闻：美籍俄裔物理学家乔治● 伽莫夫在《从一到无穷大》一书中讲了这样一个原始部落中的故事。两个酋长要比一比谁说的数字大，一个酋长想了想，先说了“三”，第二个酋长想了半天，说你赢了。因为在原始部落，物质极其缺乏，超过三的时候很少，他们称之为“许多”或者叫数不清。当我们的祖先需要记录的物件超过三时，当他们觉得五和八还是有区别的时候，计数系统就产生了。

数字是计数系统的基础。早起的数字并没有书写的形式，而是掰指头，这就是我们今天使用十进制的原因。毫无疑问，如果我们有十二个指头，今天我们用的一定是十二进制。渐渐的，我们的祖先发现十个指头不够用了。虽然最简单的办法就是把十个脚趾头也算上，但是这不能解决根本问题。

我们的祖先发明了进位制，也就是今天所说的逢十进一。这是人类在科学上的重大飞跃。几乎所有的文明都采用了十进制，但玛雅文明除外，他们数完了全部的手指和脚趾才开始进位，也就是使用了二十进制。玛雅人的一个世纪，他们称为太阳纪，是四百年。2012年正好是目前这个太阳纪的最后一年，2013年将是新的太阳纪的开始，这也就是所谓的2012世界末日。

对于不同位数数字的表示，中国人和罗马人都用明确的单位来表示数字的不同量级，中国人用个十百千万亿兆。罗马人用Ⅰ代表个，Ⅴ代表5，Ⅹ代表10，L代表50， C代表100， D代表500， M代表1000。

这两种表示法都不自觉的引入了朴素的编码的概念。首先，他们都是用不同的符号代表不同的数学概念；第二，他们分别制定了解码的规则，在中国，解码的规则是乘法，在罗马，解码的规则是加减法——小数字出现在大数字左边为减，右边为加。从编码的有效性来讲，中国人的做法币罗马人高明。

描述数字最有效的是古印度人，他们发明了包括0在内的10个阿拉伯数字，这种表示方法比中国和罗马的都抽象，但是使用方便，它们由阿拉伯人传入欧洲并得到普及。

古犹太人在要求抄写《圣经》时，为了避免抄写错误，发明了一种类似于我们今天计算机和通信中校验码的方法。他们把没一个希伯来字母对应于一个数字，这样每行文字加起来便得到一个特殊的数字，这个数字便成为了这一行的校验码。同样，对于每一列也是这样处理。当犹太学者抄完一页《圣经》时，他们需要把每一行的文字加起来，看看新的校验码是否和原文的相同，然后对每一页进行同样的处理。这背后的原理和我们今天的各种校验是相同的。

时间： 2024-10-08 23:36:05

数学之美札记：文字和语言 vs 数字和信息

数学之美札记：文字和语言 vs 数字和信息的相关文章

数学之美第1章文字和语言 vs 数字和信息

数学之美札记：信息的度量和作用

数学之美札记：贾里尼克和现代语言处理

数学之美札记：统计语言模型

数学之美札记：谈谈中文分词

数学之美札记：隐含马尔可夫模型

数学之美札记：自然语言处理——从规则到统计

读《数学之美》

[读书笔记]数学之美里的机器学习