数学之美笔记(一)


  1. 数学、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。
  2. 翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息的能力上是等价的。
  3. 文字本身的载体是石头还是纸张并不重要,它所承载的信息才是最重要的。
  4. 罗塞塔石碑的启示:

    (1) 信息的冗余是信息安全的保障,这对于信道编码有指导意义。

    (2) 语言的数据(即语料),尤其是双语或者多语的对照对翻译至关重要,这是我们从事机器翻译研究的基础。、

  5. 数字是计数系统的基础。数字和其他文字一样,在早期都是承载信息的工具,并不具有任何抽象的含义。
  6. 从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表到抽象的概念,同时不自觉的采用了对信息的编码。
  7. 常用字短,生僻字长,完全符合信息论中的最短编码原理。
  8. 在蔡伦发明纸张前,书写文字不是件容易的事。因此古代的书面文字非常简洁,但是非常难懂,而同时期的口语语句较长但是易懂。这种现象符合今天信息科学和工程的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道较窄,信息在传递前尽可能的压缩,而在接收端进行解压缩。


数学之美笔记(一)

时间: 2024-10-11 20:51:53

数学之美笔记(一)的相关文章

【数学之美笔记】自然语言处理部分(一).md

文字.数字.语言 .信息 数字.文字和自然语言一样,都是信息的载体,他们的产生都是为了记录和传播信息. 但是貌似数学与语言学的关系不大,在很长一段时间内,数学主要用于天文学.力学. 本章,我们将回顾一下信息时代的发展,看语言学如何慢慢与数学联系起来的. 信息 最开始的时候,人类会用声音来传播信息. 这里面的信息的产生.传播.接收.反馈,与现在最先进的通信在原理上没有任何差别. 因为早期人类需要传播的信息量不多,所以不需要语言文字. 但是当人类进步到一定的程度的时候,就需要语言了. 所以我们的祖先

《数学之美》读书笔记

之前拜读过吴军老师的<数学之美>.虽然这是一本科普性质的读物,但还是能从中获益匪浅.下面根据记忆以及之前做过的简要的书面笔记,做一个概括. 1.信息的作用在于消除不确定性,自然语言处理的大量问题都是找相关的信息. 2.关于搜索:技术分为术和道两种.具体的做事方法是术,做事的原理和原则是道.只有掌握了搜索的本质和精髓,才能游刃有余. 3.搜索引擎的工作流程.一个搜索引擎大致需要做这几件事:自动下载尽可能多的网页:建立快速有效的索引:根据相关性对网页进行公平准确的排序. 4.上述的索引有不同的等级

《数学之美》阅读笔记之Google搜索技术浅析

博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解.决定从现在开始,多读书,对各个方向都看一看.刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用.博主想简单总结一下,本篇主要围绕搜索引擎技术来介绍. 当我们在Google搜索框里面打一个词时,Google可以立即返回全网的搜索结果.这看似简单的背后,其实有着很复杂的处理过程.能够这么快的返回查询结果,依赖于搜索引擎对全网知识所做的预处理.这个预处理就是网络爬虫和索引表.索引表类似于书本的目录,根据目录,可以迅速找到某些内容所在的页

数学之美-阅读笔记

吴军的这本数学之美从google黑板报到实体书出版应该说一直都是比较火的,吴军博士作为早期加入google的那帮人,一直在搞搜索引擎的方向,除了本身是大牛还跟很多大牛一起共事过,眼界.见识.思维高度也不是一般人能比的.下面是一些凌乱的总结. 1.整个信息论的基础就是数学.如果往更远看,我们自然语言和文字的起源背后都受着数学规律的支配. 2.人们生活的经验作为一种特定的信息,其实是那个时代最宝贵的财富.(读者注:其实现在也是!) 3.信息冗余是信息安全的保障. 4.事实上,他们全靠的是数学,更准确

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]

数学之美之TF-IDF算法

数学之美之TF-IDF算法 By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 吴军博士在<数学之美>一书中提到如何使用TF-IDF算法进行确定网页和查询的相关性判断.我在这里给出自己学习的笔记. 相关名称: TF-IDF(term frequency–inversedocument frequency)是一种用于资讯检索与资讯探勘的常用加权技术. TF:Term Frequency 词频 IDF:Inverse documentfrequ

数学之美读书随笔

最近在读吴军的<数学之美>,书里很多内容之前已经略有了解,这次有了新体会,随手记下,算是开卷有益吧. --20160701 1. Hidden Markov Model 从对(相对静态的)随机变量的研究发展到对随机变量的时间序列S1,S2,S3..., 即随机过程(动态的)的研究. 2.   信息的作用 消除不确定性.也就是说,收集更多的相关信息,可以得到更明确的结论. joint probability:X和Y一起出现的概率 conditional probability:在Y取不同值的前提

读《数学之美》有感

因缘巧合手头有一本吴军博士的<数学之美>,原本打算随便翻翻,结果看了之后一发不可收拾,权且记下此刻心中所想. 1.读书的过程中才觉得自己学过的数学.概率论.数理逻辑.线性代数是那么的美,没用到不代表没用 2.信息论是自己之前不曾了解的知识,作者深入浅出的文章,把负责的问题用简单的方式表达出来,真的很了不起.比较推崇”极简原则“,真理如此,生活也应该如此 3.模型很重要,一个好的模型对于系统起到至关重要的作用 4.隐约感觉到书中的大多技术和数学模型都是以大数据为背景的,一直以来对推荐系统和搜索引

数学之美番外篇:平凡而又神奇的贝叶斯方法

转载自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ 概率论只不过是把常识用数学公式表达了出来. ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时:有一次,在书店看到一本书,名叫贝叶斯方法.当时数学系的课程还没有学到概率统计.我心想,一个方法能够专门写出一本书来,肯定很牛逼.后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法. ——题记 目录 0. 前言 1. 历史