数学之美读书随笔

最近在读吴军的《数学之美》,书里很多内容之前已经略有了解,这次有了新体会,随手记下,算是开卷有益吧。

--20160701

  1. Hidden Markov Model

从对(相对静态的)随机变量的研究发展到对随机变量的时间序列S1,S2,S3..., 即随机过程(动态的)的研究。

2.   信息的作用

消除不确定性。也就是说,收集更多的相关信息,可以得到更明确的结论。

joint probability:X和Y一起出现的概率

conditional probability:在Y取不同值的前提下X的概率分布

3.   信息论

信息熵 entropy

互信息 mutual information

相对熵 relative entropy (kullback-leibler divergence)

相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算 KL散度就行了。(找个机会入门下信息论,这段出现的词都不知道是啥)

4.   产生序列

后验概率最大(后验概率最大是最优,是匹配)

5.   聚类

期望最大化。(有了新感觉啊,随机初始化,期望最大化,调参,自适应,联想到这两天看的spark,这个应该是比较适合用spark这种框架来算,因为要算迭代,用RDD,没有中间写入,lazy计算,可以优化计算过程,是不是更好)

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri",sans-serif;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-font-kerning:1.0pt;}

时间: 2024-12-22 22:30:18

数学之美读书随笔的相关文章

数学之美读书笔记——自然语言处理教父和他的弟子们

《数学之美》读书笔记

之前拜读过吴军老师的<数学之美>.虽然这是一本科普性质的读物,但还是能从中获益匪浅.下面根据记忆以及之前做过的简要的书面笔记,做一个概括. 1.信息的作用在于消除不确定性,自然语言处理的大量问题都是找相关的信息. 2.关于搜索:技术分为术和道两种.具体的做事方法是术,做事的原理和原则是道.只有掌握了搜索的本质和精髓,才能游刃有余. 3.搜索引擎的工作流程.一个搜索引擎大致需要做这几件事:自动下载尽可能多的网页:建立快速有效的索引:根据相关性对网页进行公平准确的排序. 4.上述的索引有不同的等级

[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的<数学之美>看完了. 整体来说,<数学之美>是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书.作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效. 在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘.算法啥的靠谱多了.作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]

《数学之美》读书

也算是给自己立个flag,看自己是什么时候能够吧数学之美能够读完,同时保证在读的过程当中有记录. 第一版读者赞誉 第二版出版说明 第一版序言 第二版序言 第二版前言 第1章 文字和语言 vs 数字和信息 第2章 自然语言处理--从规则到统计 第3章 统计语言模型 第4章 谈谈分词 第5章 隐含马尔可夫模型 第6章 信息的度量和作用 第7章 贾里尼克和现代语言处理 第8章 简单之美--布尔代数和搜索引擎 第9章 图论和网络爬虫 第10章 PageRank--Google的民主表决式网页排名技术 第

读《数学之美》有感

因缘巧合手头有一本吴军博士的<数学之美>,原本打算随便翻翻,结果看了之后一发不可收拾,权且记下此刻心中所想. 1.读书的过程中才觉得自己学过的数学.概率论.数理逻辑.线性代数是那么的美,没用到不代表没用 2.信息论是自己之前不曾了解的知识,作者深入浅出的文章,把负责的问题用简单的方式表达出来,真的很了不起.比较推崇”极简原则“,真理如此,生活也应该如此 3.模型很重要,一个好的模型对于系统起到至关重要的作用 4.隐约感觉到书中的大多技术和数学模型都是以大数据为背景的,一直以来对推荐系统和搜索引

《数学之美》阅读笔记之Google搜索技术浅析

博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解.决定从现在开始,多读书,对各个方向都看一看.刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用.博主想简单总结一下,本篇主要围绕搜索引擎技术来介绍. 当我们在Google搜索框里面打一个词时,Google可以立即返回全网的搜索结果.这看似简单的背后,其实有着很复杂的处理过程.能够这么快的返回查询结果,依赖于搜索引擎对全网知识所做的预处理.这个预处理就是网络爬虫和索引表.索引表类似于书本的目录,根据目录,可以迅速找到某些内容所在的页

数学之美-阅读笔记

吴军的这本数学之美从google黑板报到实体书出版应该说一直都是比较火的,吴军博士作为早期加入google的那帮人,一直在搞搜索引擎的方向,除了本身是大牛还跟很多大牛一起共事过,眼界.见识.思维高度也不是一般人能比的.下面是一些凌乱的总结. 1.整个信息论的基础就是数学.如果往更远看,我们自然语言和文字的起源背后都受着数学规律的支配. 2.人们生活的经验作为一种特定的信息,其实是那个时代最宝贵的财富.(读者注:其实现在也是!) 3.信息冗余是信息安全的保障. 4.事实上,他们全靠的是数学,更准确

读《数学之美》

其实准备读<数学之美>这本书,是从很久开始的.记得去年夏天的时候,是读了<浪潮之巅>,然后就认识了吴军这样的一个人,很喜欢他的写作风格.于是就准备读<数学之美>的. <数学之美>这本书,本身和<浪潮之巅>一样,已经在众多的读者中有了一个很好的口碑了,吴军博士本身的才学和研究,对于更多的人来说,也形成了一种尊重的心理.在我读了<浪潮之巅>后,有种很厚重的历史沧桑感堆积于胸.不得不承认<浪潮之巅>对于我的影响. <数学之

书籍推荐——一本老书,吴军老师《数学之美》

本文始发于个人公众号:TechFlow 1 这几天春节,因为疫情和拜年,所以文章停更了四天.但是这四天里我并没有偷懒,我利用间歇的时间读了一本久仰大名但是一直没有时间阅读的书.它就是吴军老师的著作--<数学之美>. 之前早在我还在上大学的时候,就听线性代数的老师给我们推荐过这本书.但是当时并没有什么印象,也没有读书的习惯,所以当年并没有读这本书.以我现在的眼光来看,当时如果读了,也未必能够读懂.后来一次偶然的机会,在"得到"APP当中听过吴军老师的一些讲座,给了我很多启发.