数学之美札记:文字和语言 vs 数字和信息

数学、文字和自然语言一样,都是信息的载体,他们之间有着天然的联系。语言和数学的产生都是为了同一样目的——记录和传播信息。本文是《数学之美》第一章札记。

1798年,拿破仑远征军中,皮埃尔●弗朗索瓦●布沙尔中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字、埃及的拼音文字和古希腊文,这就是著名的罗塞塔(Rosetta)石碑。

1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字。随着罗塞塔石碑的破译,帮助我们了解了整个古埃及的历史和文明,这要归功于埃及人通过三种语言进行了记录,这件事有两点指导意义:

  1. 信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义。
  2. 语言的数据,即语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。

计数系统的产生轶闻:美籍俄裔物理学家乔治● 伽莫夫在《从一到无穷大》一书中讲了这样一个原始部落中的故事。两个酋长要比一比谁说的数字大,一个酋长想了想,先说了“三”,第二个酋长想了半天,说你 赢了。因为在原始部落,物质极其缺乏,超过三的时候很少,他们称之为“许多”或者叫数不清。当我们的祖先需要记录的物件超过三时,当他们觉得五和八还是有 区别的时候,计数系统就产生了。

数字是计数系统的基础。早起的数字并没有书写的形式,而是掰指头,这就是我们今天使用十进制的原因。毫无疑问,如果我们有十二个指头,今天我们用的一定是 十二进制。渐渐的,我们的祖先发现十个指头不够用了。虽然最简单的办法就是把十个脚趾头也算上,但是这不能解决根本问题。

我们的祖先发明了进位制,也就是今天所说的逢十进一。这是人类在科学上的重大飞跃。几乎所有的文明都采用了十进制,但玛雅文明除外,他们数完了全部的手指 和脚趾才开始进位,也就是使用了二十进制。玛雅人的一个世纪,他们称为太阳纪,是四百年。2012年正好是目前这个太阳纪的最后一年,2013年将是新的 太阳纪的开始,这也就是所谓的2012世界末日。

对于不同位数数字的表示,中国人和罗马人都用明确的单位来表示数字的不同量级,中国人用个十百千万亿兆。罗马人用Ⅰ代表个,Ⅴ代表5,Ⅹ代表10,L代表50, C代表100, D代表500, M代表1000。

这两种表示法都不自觉的引入了朴素的编码的概念。首先,他们都是用不同的符号代表不同的数学概念;第二,他们分别制定了解码的规则,在中国,解码的规则是 乘法,在罗马,解码的规则是加减法——小数字出现在大数字左边为减,右边为加。从编码的有效性来讲,中国人的做法币罗马人高明。

描述数字最有效的是古印度人,他们发明了包括0在内的10个阿拉伯数字,这种表示方法比中国和罗马的都抽象,但是使用方便,它们由阿拉伯人传入欧洲并得到普及。

古犹太人在要求抄写《圣经》时,为了避免抄写错误,发明了一种类似于我们今天计算机和通信中校验码的方法。他们把没一个希伯来字母对应于一个数字,这样每 行文字加起来便得到一个特殊的数字,这个数字便成为了这一行的校验码。同样,对于每一列也是这样处理。当犹太学者抄完一页《圣经》时,他们需要把每一行的 文字加起来,看看新的校验码是否和原文的相同,然后对每一页进行同样的处理。这背后的原理和我们今天的各种校验是相同的。

时间: 2024-10-08 23:36:05

数学之美札记:文字和语言 vs 数字和信息的相关文章

数学之美 第1章 文字和语言 vs 数字和信息

参考书籍:<数学之美> 吴军著 语言和数学的产生都是为了同一个目的:记录和传播信息 1. 文字的起源:当语言和词汇积累到一定程度(记不住)的时候,产生了高效记录信息的需求-->文字. 2. 文字发展的阶段 象形文字(物体的外表):<亚尼的死者之书>:象形文字增加到一定程度(记不住)的时候,概念开始进行概括和归纳,如日即可表示太阳,也可以表示一天(类比机器学习中的聚类):但是由于文字按照意思来聚类,会导致歧义性(文言文解读),通常借助上下文去除歧义: 楔形文字/拼音文字(抽象编

数学之美札记:信息的度量和作用

1948年,香农在著名论文"通信的数学原理"中提出了"信息熵"的概念,解决了信息的度量问题,并且量化出信息的作用. 香农使用了"比特"(Bit)这个概念来度量信息量.一个比特是一位二进制数,计算机中的一个字节是8比特.举个例子,32支球队参加世界杯,赛后猜测谁是冠军,通常只需要5五次,就可以得到答案.(把球队编号1-32,然后提问类似的问题:"冠军在1-16号中吗?",只需要提问五次),可以发现,信息量的比特数和所有情况的对数

数学之美札记:贾里尼克和现代语言处理

在之前的札记中,尤其是统计语言模型中,我们常提到贾里尼克的名字,弗里德里克·贾里尼克博士是成功将数学原理应用于自然语言处理领域的大师. 贾里尼克博士生于1932年11月18日,卒于2010年9月14日.他生于捷克,少年时经历了二战,父亲是名医生,战争期间死在了集中营,1946年母亲带着全家移民美国. 贾里尼克最初的梦想是成为一名律师,为其父亲辩护,移民美国后,希望子承父业,理想是成为医生,他想进哈佛大学医学院,但他无力承担8年的学费(4年本科加上4年医学院教育).而恰恰麻省理工提供了他一份全额奖

数学之美札记:统计语言模型

统计语言模型(Statistical Language Model)是一个数学模型,它是所有自然语言处理的基础,广泛应用于机器翻译.语音识别等领域,它产生的初衷是为了解决语言识别问题. 自然语言处理中,对于如何判断一个文字序列是大家理解且有意义的句子,贾里尼克提出了一个简单的统计模型:一个句子是否合理,就看看它的可能性大小如何.至于可能性就用概率来衡量.通过文字序列组成的句子在人类语言中出现的概率,来判断这个文字序列是否合乎文法.含义是否正确等. 这个方法的核心是通过抽象并计算文字序列中每一个词

数学之美札记:谈谈中文分词

之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位.西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单.而对于汉语等东方语言,词之间没有明确的分界符,这就需要先对句子进行中文分词. 中文分词最简单的方式是查字典,这种方式最早由北京航空航天大学的梁南元教授提出.简单的来说,就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如"上海大学")就找最长的词匹配, 遇到不认识的字串就分割成

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速.有效的方法.它成功的解决了复杂的语音识别.机器翻译等问题. 人类信息交流的发展贯穿了人类的进化和文明的全过程.而自然语言是人类交流信息的工具,语言和通信的联系是天然的.通信的本质就是一个编解码和传输的过程.当自然语言处理的问题回归到通信系统中的解码问题时,很多问题都迎刃而解了. 所谓语音识别,就是听话的人去猜测说话者要表达的意思.这就像通信中,根据接收端收到的信号去分析.理解.还原发送端传送过来的信息.我们平时在说话时

数学之美札记:自然语言处理——从规则到统计

自然语言的处理,主要是实现人与计算机之间用自然语言进行有效通信的方法和理论,它经历了从规则到统计的阶段,所谓规则,是指根据定义的语法进行语言的处理,所谓统计,是指IBM为解决语音识别问题提出的自然语言处理的方法,基于统计学. 1946年,现代计算机诞生,人类开始考虑通过计算机来处理自然语言,主要涉及两个认知方面的问题:第一,计算机是否能处理自然语言:第二,如果能,它处理自然语言的方法是否和人类一样.现代自然语言处理的高速发展,说明了这两个问题的答案都是肯定的. 计算机科学之父阿兰·图灵最早提出了

读《数学之美》

其实准备读<数学之美>这本书,是从很久开始的.记得去年夏天的时候,是读了<浪潮之巅>,然后就认识了吴军这样的一个人,很喜欢他的写作风格.于是就准备读<数学之美>的. <数学之美>这本书,本身和<浪潮之巅>一样,已经在众多的读者中有了一个很好的口碑了,吴军博士本身的才学和研究,对于更多的人来说,也形成了一种尊重的心理.在我读了<浪潮之巅>后,有种很厚重的历史沧桑感堆积于胸.不得不承认<浪潮之巅>对于我的影响. <数学之

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]