《数学之美》读书笔记

之前拜读过吴军老师的《数学之美》。虽然这是一本科普性质的读物,但还是能从中获益匪浅。下面根据记忆以及之前做过的简要的书面笔记,做一个概括。

1.信息的作用在于消除不确定性,自然语言处理的大量问题都是找相关的信息。

2.关于搜索:技术分为术和道两种。具体的做事方法是术,做事的原理和原则是道。只有掌握了搜索的本质和精髓,才能游刃有余。

3.搜索引擎的工作流程。一个搜索引擎大致需要做这几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。

4.上述的索引有不同的等级划分。应该根据需要网页的重要性、质量和访问的频率而建立。

5.自动下载互联网所有的网页,用到了图论中的遍历算法:深度优先遍历、广度优先遍历。

6.下载网页用到了网络爬虫技术。它可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页,并把它们存起来。

7.Google的PageRank算法:简单的说就是民主表决。在互联网上,如果一个网页被很多其他的网页所链接,说明它受到普遍的承认与信赖,那么它的排名就高。网页排名高的网站贡献的链接权重大。

8.网页和查询的相关性:搜素关键词权重的科学度量是运用了TF-IDF技术。

9.地址识别技术运用了有限状态机--它包括一些状态(节点)和连接这些状态的有向弧。基于概率的有限状态机被应用于模糊匹配上。

10.全球导航运用了动态规划算法。

11.关于新闻的分类。这一篇巧妙地将新闻的分类与数学上的余弦公式联系起来。将一遍新闻看做一个向量--特征向量。向量的维度是词的总数量,向量中每一维度代表每个词对这篇新闻主题的贡献。然后计算两个特征向量的夹角:cos(A)=<b,c>/(|b|*|c|)=(X1Y1+X2Y2+...+X64000Y64000)/(SQRT(X1^2+X2^2+...+X64000^2)*SQRT(Y1^2+Y2^2+...+Y64000^2))。(X1、Y1表示X的下表是1,Y的下表是1;SQRT()表示开方。X1^2表示X1的平方)计算的夹角越小,说明两条新闻越相近,越相关。然后可以计算待分类的新闻的特征向量,与各个类别代表的新闻的特征向量的夹角。求出其中最小的夹角,那么这个待分类的新闻就应该归类到与其夹角最小的那一类新闻中。

12.信息指纹:提取信息的特征作为一个字符串,求出该字符串对应为一个随机数。只要产生随机数的算法足够好,就能保证几乎不可能有两个字符串的指纹相同。信息指纹的好处:节省空间,存储整型比存储整个字符串省多了;提高查找效率,如果查找字符串,需要一个个匹配,而查找整型则有先排序然后二分查找等方法,效率提高很多。

13.伪随机数产生器算法--梅森旋转算法。

14.在互联网上加密需要使用基于加密的伪随机数产生器。常用的算法有MD5或SHA-1等。它们可以将不定长的信息变为定长的128为或160位二进制随机数。SHA-1被山东大学的王小云教授证明有漏洞。题外话:该书出版时王小云教授尚未发现MD5的漏洞,因此书中没有提到此事。王小云教授实际上也证明了MD5算法有漏洞,其实不是坊间流传的攻克了MD5算法。而是找出了MD5算法的强无碰撞。如果想要真正破解MD5算法,应该找到弱无碰撞才可以。设f(x)为hash函数,那么弱无碰撞是指:已知一个数X,要找出数Y,使得他们的哈希值f(x)=f(y)。强无碰撞是指找出一对数X与Y,使得它们的哈希值f(x)=f(y)。一个好的密码算法,应该要求不能找出强无碰撞和弱无碰撞。

15.搜索引擎的作弊--搜索引擎中排名靠前的网站不一定就是高质量、高相关性的网站。比如在网页中的隐藏域里加入大量的关键词,用来提高排名。或者购买大量链接等。作弊的本质是在网页排名的信号中加入了噪音,因此次反作弊的关键是去噪音。

16.最大熵模型与最大熵原理。通俗的讲就是鸡蛋不要放在一个篮子里。这是一种非常简单、优美,唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑性的模型。但是计算量非常大。把各种特征综合在一起的最好的方法是采用最大熵模型。

17.输入法。输入汉字的快慢取决于汉字编码的平均长度。所谓平均长度是指击键次数乘以寻找这个键所需要的时间。汉字的编码包括对拼音的编码以及消除歧义的编码。而五笔输入法虽然减少了每个汉字击键的次数,却忽视了找到每个键的时间,因此它的编码的平均长度比较长,速度比较慢。

18.香农第一定理:对于一个信息,任何编码的长度都不小于它的信息熵。

19.拼音输入法拼音转汉字的算法:每个拼音可以对应多个汉字,而把一个拼音串对应的汉字从左到右连起来,就是一张有向图。它被称为网格图或篱笆图。拼音输入法就是根据上下文在给定拼音条件下找到一个最优的句子。对于上述的网格图,就对图的概率的表达式做转换,将连乘转化为连加。将问题转为寻找最短路径的问题。而最短路径的问题可以用动态规划算法解决。

20.布隆过滤器用于检索一个元素是否在一个集合里。它将元素通过Hash函数映射为位列阵中的一个点。因此只要看这个点是不是1就可以判断集合中有没有它了。布隆过滤器具有快速和省空间的优点,但是由于它是基于Hash函数的,而Hash函数难免会有冲突,因此布隆过滤器会有一定的误识别率。补救措施是再建立一个小的白名单,存储可能被误识别的元素。

21.马尔科夫链描述一种状态序列,其每个状态值取决于前面有限个状态。这种模型对很多实际问题来说是一种很粗略的简化。因为在现实生活中,事物相互的关系不能用一条链来串起来,他们之间的关系可能是交叉的,错综复杂的。这个时候应该用贝叶斯网络,它是一种加权的有向图。马尔科夫链是贝叶斯网络的特例,贝叶斯网络是马尔科夫链的推广。而贝叶斯网络的训练是一个NP问题。训练贝叶斯网络,可以用贪心法。而为了防止局部最优的方法,可以用蒙特卡洛算法。

22.好的方法在形式上往往是简单的。

23.维特比算法是一种特殊但应用最广泛的动态规划算法,用来寻找观察结果最有可能产生观测事件序列的-维特比路径-隐含状态序列。它针对篱笆网络的有向图的最短路径问题,凡是用隐含马尔科夫模型描述的问题都可以用它解码。

24.逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。和指数模型(例如最大熵模型)一样,它们的训练方法相似,都可以采用迭代算法GIS和改进的迭代算法IIS来实现。

25.MapReduce运用了分治法。将一个大任务拆分成小的子任务,并且完成子任务的计算,这个过程叫Map。将中间的结果合并成最终结果,这个过程叫Reduce。

以上只是对整本书的一个粗浅的回顾。上面的内容之于整本书的内容,相当于沙滩上的几件贝壳之于整个沙滩。若想更加细致的了解本书,还是从头到尾品读一遍书比较好。

时间: 2024-12-13 13:59:47

《数学之美》读书笔记的相关文章

码农的产品思维培养第一节(人人都是产品经理读书笔记)

在前段时间,密集的推出Android学习记录之后,我觉得接下来的Android开发进入了一个精进演变的过程,革命性的东西略缺.每日更新特别新的东西也违背认知规律.所以以后关于Android方面的知识,碰到什么,然后记录什么. 而今天,在前一篇日志里面,我描述了我为什么要去理解"产品经理",从这一节开始,我要实施我的计划.所以,和Android记录一样,我要记录这个过程.对自己是一个回归总结吸收的过程,同时也希望能够帮助到更多的朋友,如果你也心存学习进取之心,如果你也如我一般疑惑未解心不

人人都是产品经理读书笔记(四)

补充:

《启示录:打造用户喜爱的产品》—— 读书笔记

这是一本非常不错的书,即使你可能只是一名开发工程师,也会有意想不到的收获! 如果你是一名产品经理,那就更不能错过了!不要留下遗憾! 这真的是一本很好的书,读每一遍都会有不同的收获,绝对让你震撼!我是会再读一遍或者N多遍的, 而能把这些内容转应用到实际中的人才是真正的高手,细细体会,在工作中好像已经有人在用了!惊讶!得抓紧时间了! 通过这本书,你将会知道一个合格的产品经理应该做什么,怎么做 本书主要讲解三个方面:人员.流程.产品 人员:产品从开始到完成过程中所有的参与者 流程:产品在开发过程中的所

产品经理学习笔记(二)------产品经理的工作职责(下)

二.产品经理的工作职责(下) 4.产品宣讲 ---宣讲对象:客服.市场.销售.运营.其他(开发进度到50%) ---宣讲目的:内部培训.获得认可 ---宣讲方式:内部推荐会(预测.演示.试用).注意控制(氛围.引导) ---宣讲目标:获得认可.帮助其他团队更好理解产品.协助其他团队更好开展工作 5.市场推广 ---对产品资料进行内容把关:网站.移动应用.印刷品等 ---主要针对:市场.公关.运营.销售 6.产品推出后的管理与迭代 ---运营数据的整理分析 ---深入一线体验产品 ---关注用户需

产品经理--读书静心的日子

入行教育,做教育产品工作,需要不断的进步. 一.了解产品开发.项目管理经验. 二.教育基础理论及相关知识. 小学阶段 (2016.2017不断的翻阅,有新的体会) 中学阶段(2018主攻方向)

谷歌和亚马逊如何做产品(读书笔记)

《产品经理》读书笔记

自从鼠标手犯病后,就刻意减少使用电脑的时间并且加强运动,目前已经完全康复,但是还是需要注意.因此更新博客的频率大大降低,但是也有时间多看看书,学习学习了! 最近看了<yes,产品经理>上下册,作者 汤圆 老马,文笔诙谐,把管理知识融入工作日常内容,浅显易懂,对于非管理专业的门外汉,还是不错的读物! 下面是摘抄的部分主要内容,个人认为比较有用的就记录下来. ------------------------------------------------ 制定产品价格策略的6步: 确定企业目标 冲

产品经理的那些事第一章读书笔记

1.一个产品经理的信仰:好产品能改变世界. 2.为什么要做产品经理:因为热爱,改变世界的方法有很多,技术可以改变世界,好的产品也可以,当然还有其他,但我热爱产品,一件事只有热爱了,才能持续不断的去做好,所以我选择了产品经理这条路. 3.产品是什么:产品是用来解决某个问题的东西. 4.产品经理为何而设:想要更了解产品与它面临的竞争情况,最终目的是要满足顾客的需求. 5.产品经理概念的进化: 分析: 1)行业形态不同:成熟行业vs.新兴行业 ①传统行业 概况:经过几十年乃至上百年的摸爬滚打,市场已经

【读书笔记】产品经理要做的事

文章链接:http://www.chanpin100.com/archives/44223 作为一个产品经理,不能只画图:产品经理更像是一个纽带,连接着各个环节,保持项目的正常运行. 在开始要做一个产品的时候,不能上来就画图,也不能告诉你需求就开始画图.应该先对需求进行筛选和挖掘:把伪需求去掉,挖掘出潜在需求. 1.分析产品的步骤:目标人群.使用场景.业务核心. 2.在团队中担任掌舵人,有目的的引导团队:激发团队灵感可以使用商业画布:客户分布.价值主张.渠道通路.客户关系.收入来源.核心资源.关

【读书笔记】神一样的产品经理(一)

 第一篇 产品经理 1.产品经理诞生的背景和价值 *很多入门级书里都会提到这一部分,本书讲了保洁诞生的第一个产品经理的故事. 2.很牛的产品经理(例子是乔布斯.郭靖) 1)几个重要特性:*影响力 *核心需求把控力 *创新力 *痴情力 2)产品经理的职责: *明确产品的目标用户群及其特征*获取.评估和管理用户需求*完成产品需求文档.产品原型和流程图*精通用户体验.交互设计和信息架构技能*项目管理.需求变更管理和需求验收*产品运营数据的分析和总结*提供运营.市场和销售等支撑 3)产品经理常犯的错误