[读书笔记]数学之美里的机器学习

这几天陆陆续续把吴军博士的《数学之美》看完了。

整体来说,《数学之美》是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书。作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效。

在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘、算法啥的靠谱多了。作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]的思想,这些都是挺有启发意义的。

因为内容比较多,在这里把《数据之美》各章概括一下,作为以后学习的线索。这书大部分内容是2012年写的,学习的时候也要对照着看看机器学习这几年的发展,以及是否有差错。

章节 概述 关键字
第1章 文字和语言 vs 数字和信息 人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法,1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展,[统计]方法更为人所知,在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译] 机器智能 图灵测试 隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown
第2章 自然语言处理——从规则到统计
第3章 统计语言模型 用统计的方法做自然语言处理,不再深究句法是否合理,而是统计哪一种句法在语料库里最常出现。
依据[马尔代夫假设]/条件概率,统计语言模型的计算变得更加简单有效,逐渐在分词、语音识别、机器学习里大展头角。
达特茅斯会议
马尔科夫假设 马尔科夫链 隐含马尔科夫模型 二元模型 BigramModel 语料库 大数定理 Rosetta
第4章 谈谈中文分词 [统计语言模型]虽然有效,但在实际工作中需要更高效的算法。

[通信模型]的引入,把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题,成为[更小范围]内的条件概率,提高了运算效率

查字典
最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯
第5章 隐含马尔可夫模型 通信模型
LenoardBaum 随机变量 随机过程 独立输出假设 维特比算法 语音识别
第6章 信息的度量和作用 引入[信息熵]概念,把[信息]与[不确定性]结合起来。减少信息[不确定性],其实是一个条件概率(已知Y,若X/Y相关,则能更了解X),为[互信息] 香农
信息熵 比特 信息量 冗余度 通信的数学原理 消除不确定性 联合概率分布 条件概率分布 互信息 语料  DavidYarowsky 
第7章 贾里尼克和现代语言处理 人物传记 信息六要素
RomanJakobson 最大熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP 
第8章 简单之美-布尔代数和搜索引擎的索引 搜索的核心:按[图]下载尽可能多的网页,用[TRUE/FALSE]建立网页关键词的索引,利用[PageRank]决定排序,再通过[TF-IDF]衡量关键词权重,提高查询与网页之间的[相关性] 二进制
布尔代数 GottfriedLeibniz 二进制计算机 香农 量子力学 离散数学 索引 分布式存储
第9章 图论和网络爬虫 离散数学
数理逻辑/布尔运算 图 遍历Traverse 广度优先搜索 深度优先搜索 弧 网络爬虫 散列表HashTable
第10章 PageRank -Google的民主表决式网名 网页质量信息
PageRank 民主表决 链接权重 稀疏矩阵计算 系统论 信息检索课程
第11章 如何确定网页和查询的相关性 概率模型
TF-IDF 关键词权重 词频 停止词 KarenSparckJones 文献学学报 交叉熵 Kullback-LeiblerDivergence
第12章 有限状态机和动态规划——地图和本地搜索的最基本技术 利用[有限状态机]进行地址分析(省/市/县定位识别),又因为有些地址不标准,要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线,采用[图]里的[动态规划]进行快速检索 有限状态机
有向图 有向弧 开始状态 终止状态 模糊匹配 基于概率的有限状态机 离散的马尔科夫链 AT&T 加权图 最短路径
动态规划DynamicProgramming 
第13章 Google AK-47 的设计者 — 阿米特·士 人物传记:寻找简单有效的解决方法 AmitSinghal
Ascorer 网络搜索中的作弊问题 模型压缩 简单方法的有效性 UdiManber 文本的句法分析 机器学习 分析不好的结果
第14章 余弦定理和新闻的分类 对于新闻分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时,需要引用[矩阵]中的[奇异值分解],以缩减计算过程。另外,由于数据量过大,工业界在研究如MapReduce等并行算法。 新闻自动分类
TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理 余弦相似性 自底向上不断合并 RaduFlorian 自动分类 论文评审 
第15章 矩阵运算和文本处理中的两个分类问题 数值分析
线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析 奇异值分解的并行算法 
第16章 信息指纹及其应用 在[网络爬虫]时,要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配,为了效率,利用[伪随机数产生器],将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域 信息熵
无损压缩编码 散列表 随机映射 128位二进制 信息指纹 伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister
加密的伪随机数产生器CSPRNG 判断集合基本相同 想死哈希 关键帧的提取 视频特征提取
第17章 由电视剧《暗算》所想到的 — 谈谈原理 凯撒大帝
信息论 跳舞的小人 反函数 自变量 亚德利HerbertOsborneYardley 中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数
第18章 闪光的不一定是金子 除了排序和看相关性以外,要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文进行[句法分析],找到[提及]信息,判断信息源的权威性 网页排名作弊
反作弊 重复关键词 买买链接 通信模型 抗噪声 振幅相反 汽车噪声 解卷积 卷积 相关性 高斯白噪声 抗干扰 出链 余弦距离 图论 Clique 去噪音
搜索结果权威性 提及 句法分析 信息源描述 互信息 聚合 收敛
第19章 谈谈数学模型的重要性 通过天文学的例子再次强调数学模型的重要性 椭圆模型
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型 最大熵模型,即保留却不得不确定性,这是[指数模型]。在很多地方都用到 最大熵
椭圆模型 AT&T 不确定性 指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金
文艺复兴技术公司
第21章 拼音输入法的数学原理 输入法的效率,利用词和上下文相关性提高效率。涉及[动态规划]及[语料库] 平均击键次数
消除歧义香浓第一定理 信息熵 词库 语言模型 概率论 动态规划 通信问题 有向图
第22章 自然语言处理的教父马库斯和他的学生 介绍一些科学家的研究思路 MitchMarcus
LDC语料库句子分析 分析器 柯林斯 基于变换规则的机器学习方法 词性标注
第23章 布隆过滤器 用于判断一个元素是否在一个集合里 散列表
布隆过滤器 二进制向量 随机映射 信息指纹 垃圾邮件过滤
第24章 马尔可夫链的扩展 — 贝叶斯网络 介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广,解决多个节点的概率计算,在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络],只不过它属于[无向图],与[最大熵]联系起来。另外,[括括号]把[文法分析]与数学模型关联起来,更有效进行文本分析。 贝叶斯网路
可信度 贝叶斯公式 联合概率分布 结构训练 参数训练 NP完备问题 词分类 文本分类 Rephil局部最优 蒙特卡罗方法 EM过程
第25章 条件随机场和句法分析 联合概率分布
文法分析 语义分析 拉纳帕提 括括号 最大熵模型 对数函数 浅层分析 条件随机场 无向图 隐含马尔科夫模型 边缘分布 大数定理 指数函数 Gparser
犯罪预测 模式识别 机器学习 生物统计 预防犯罪率
第26章 维特比和他的维特比算法 [维特比算法]属于[动态规划算法],针对[篱笆网络]这种特殊的图,可解决大多[隐含马尔科夫链]的模型。 AndrewViterbi
高通 动态规划 篱笆网络 有向图最短路径 隐含马尔科夫模型 状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA
CDMA 高通公司
第27章 再谈文本自动分类问题 — 期望最大化算法 介绍了如Kmeans聚类,逻辑回归,分布式运算、人工神经网络的基础内容。 期望最大化
文本自动分类 自底向上 文本中心 收敛 迭代 
第28章 逻辑回归和搜索广告 逻辑回归
一层的人工神经网络 训练最大熵模型 IIS
第29章 各个击破算法和Google 云计算的基础 分治算法
各个击破 MapReduce 归并排序
第30章 Google大脑和人工神经网络 深度学习
Google大脑 有向元 贝叶斯网络 人工神经网络
第31章 大数据 切比雪夫不等式
时间: 2024-08-01 06:22:11

[读书笔记]数学之美里的机器学习的相关文章

《游戏人工智能编程案例精粹》读书笔记—数学和物理学初探

1.1.1 笛卡尔坐标系 在二维空间中,笛卡尔坐标系被定义成两个坐标轴成直角相交并且用单位长度标出.水平轴称为x 轴,而垂直轴称为y 轴,两个轴的交点称为原点,如图1.1 所示. 如图1.1所示,每个坐标轴端点的箭头表示它们在每个方向上无限延伸.假想有一张无限大的纸,上面有x 轴和y 轴,纸就表示 xy 平面,所有二维的笛卡尔坐标系中的点都可以给制在这个平面上.在2D 空间中的一个点可以用一对坐标(x,y) 表示.x 和y 的值代表沿着各自的轴上的距离. 为了表达三维空间,需要另外一个坐标轴z铀

读书笔记-《拆掉思维里的墙》

<拆掉思维里的墙>,在豆瓣上的评论接近两万条,感兴趣扫了电子书,感觉有点成功学的范本,随意浏览了下,做了逻辑脑图,给我启发的几点如下. 1.我是个缺乏安全感的人,里面说到了在安全领域内克服自己的怯弱,面对自己的恐惧,多写成功日志:安全感就是一种被需要,一种创造价值的体验. 2.思维定势阻碍了创造力,真理不一定是对的,需要符合自身条件,敢于批判. 读书笔记-<拆掉思维里的墙>

【读书笔记】 函数柯里化

这是书上函数柯里化的例子 1 function curry(fn){ 2 var args = Array.prototype.slice.call(arguments, 1);//取出调用curry时除了第一个函数参数的后面所有参数; 3 return function(){ 4 var innerArgs = Array.prototype.slice.call(arguments);//取出第二次调用时的所有参数; 5 var finalArgs = args.concat(innerAr

【读书笔记】周志华《机器学习》第三版课后习题讨&lt;第一章-绪论&gt;

虽然是绪论..但是...真的有点难!不管怎么说,一点点前进吧... 声明一下答案不一定正确,仅供参考,为本人的作答,希望大神们能多多指教~ 1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间. 解答:本题考查版本空间.假设空间的概念.简而言之,假设空间是该问题情景下,所有的取值可能性(包括单属性泛化.二属性泛化.X属性泛化--全泛化的情况),而版本空间则是指在测试用样本情境下,满足样本内所有正例的假设集合(一般版本空间内的假设都是带有属性泛化). 我们先来看一下1和4样例组成

机器学习读书笔记(开篇)

新近到手一本<机器学习实战>(Peter Harringtom),兴奋之余,本着好记性不如烂笔头的真理,打算将读书的过程记录下来,形成读书笔记,重点记录自己所理解的算法思想与应用示例.本人野生猿一枚,贻笑大方之处,敬请谅解. 机器学习可以揭示数据背后的真实含义,而数据以及基于数据做出的决策是非常重要的,机器学习的实现离不开数据挖掘算法,书中介绍了几个主要的算法,使用Python以及对应的科学计算包,如NumPy与SciPy等进行编程. 第一部分 分类 机器学习读书笔记01 机器学习基础 机器学

《Linux/Unix系统编程手册》读书笔记9(文件属性)

<Linux/Unix系统编程手册>读书笔记 目录 在Linux里,万物皆文件.所以文件系统在Linux系统占有重要的地位.本文主要介绍的是文件的属性,只是稍微提及一下文件系统,日后如果有更深入的研究一定会写出来. 下图为磁盘分区与文件系统的关系 文件系统中的文件(目录)在i-node表上都有唯一的记录(i-node).i-node通过数据块指针指向数据块,这些数据块就是该i-node对应的文件的数据. i-node与数据块的关系如下: 因为Linux支持很多类型的文件系统,但是每种文件系统的

读《数学之美》有感——第一篇

<数学之美>让我改变了对数学刻板的印象,我一直都不知道数学研究得那么深入,到底有什么作用.但是经过这一次阅读,我发现数学之美可以通过信息技术直接具体地展示在人们面前.我们在解决一些问题上,一个优秀的模型对于解决问题来说实在太重要了. 我先介绍两个我觉得比较有意思的应用吧!首先是数学在中文分词中的意义.再过去的相当长一段时间,基于语法的分词效果并不理想,因为中文中有很多两个名词组成的单词相类似的情况,基于语法是很难彻底区分开的.七十年代,当时 IBM 的 Fred Jelinek (贾12数学之

《数学之美》读书笔记

之前拜读过吴军老师的<数学之美>.虽然这是一本科普性质的读物,但还是能从中获益匪浅.下面根据记忆以及之前做过的简要的书面笔记,做一个概括. 1.信息的作用在于消除不确定性,自然语言处理的大量问题都是找相关的信息. 2.关于搜索:技术分为术和道两种.具体的做事方法是术,做事的原理和原则是道.只有掌握了搜索的本质和精髓,才能游刃有余. 3.搜索引擎的工作流程.一个搜索引擎大致需要做这几件事:自动下载尽可能多的网页:建立快速有效的索引:根据相关性对网页进行公平准确的排序. 4.上述的索引有不同的等级

数学之美-阅读笔记

吴军的这本数学之美从google黑板报到实体书出版应该说一直都是比较火的,吴军博士作为早期加入google的那帮人,一直在搞搜索引擎的方向,除了本身是大牛还跟很多大牛一起共事过,眼界.见识.思维高度也不是一般人能比的.下面是一些凌乱的总结. 1.整个信息论的基础就是数学.如果往更远看,我们自然语言和文字的起源背后都受着数学规律的支配. 2.人们生活的经验作为一种特定的信息,其实是那个时代最宝贵的财富.(读者注:其实现在也是!) 3.信息冗余是信息安全的保障. 4.事实上,他们全靠的是数学,更准确