《数学之美》知识点详细总结
原创作品, 转载请注明出处:[ Mr.Scofield http://blog.csdn.net/scotfield_msn/article/details/69264939
]
From`RxNLP`Scofield
未完待续……
《数学之美》这本书在本科期间电子版上偶尔进行了翻阅,后来有时间了就完整的进行了阅读。出于老习惯,看完一本书后总会去总结书本的知识点层次框架,以更好地融入到原有的框架中。尤其是现入坑NLP,作为入门书,更应是好好吸收下。
评价:1、整本书的知识广度大于深度,感觉知识点比较零散。2、对于数学知识更注重与实际使用的结合,而不是知识的完整性。3、知识稍微有点乱,可以当做入门杂志类的书进行翻阅消遣,适合看章节标题进行相关知识的扫盲,但不适合钻读。
按照原书的章节划分知识点,再按照自己的理解将知识点分为不同的类,对原书进行知识重构分类,所以原章节顺序将会被重排。我将其重新分为了五大类型的知识点,分别是:信息领域与数学;任务与技术引入;具体算法、模型引入;次领域概念引入;信息领域大师、思想介绍。
一、 信息领域与数学
1、文字与信息
文字:知道“罗塞塔”石碑的典故。
数字:进制的产生,数字的表示方法(编解码原理)
2、NLP
NLP的基本概念、任务
从规则到统计:基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。
3、SE
搜索引擎的基础是boolean逻辑运算。
简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。
4、拼音输入法
输入法经历了以自然音节编码,到偏旁笔画拆字输入,再回归自然音节输入的过程。
涉及到N-gram语言模型
香农第一定理
二、 任务与技术引入
1、分词
中文分词是将一句话分成一些词,这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。
2、网络爬虫
图论:离散数学{数理逻辑、集合论、图论、近世代数}
图的遍历分为“广度优先搜索(Breadth-First Search,简称BFS)”和“深度优先搜索(Depth-First Search,简称DFS)。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过(如果记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只需要一个很多位的数字即可),避免重复下载。
3、SE反作弊技术
把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。
4、云计算
Mapreduce:分治算法
将一个大任务分成几个小任务,这个过程叫Map,将小任务的结果合并成最终结果,这个过程叫Reduce,该过程如何调度、协调就是工程上比较复杂的事情了。
5、深度神经网络
人工神经网络基础
深度学习引入
三、 具体算法、模型引入
1、HMM
通信模型
HMM基本介绍
三个问题
2、贝叶斯网络
叶斯网络是马尔科夫链的扩展,由简单的线性链式关系扩展为网络的关系,但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。
应用:分词
3、CRF
条件随机场:HMM升级版
应用:句法分析
句法分析是分析出一个句子的句子结构,对于不规则的句子,对其进行深入的分析是很复杂的,而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。
4、Viterbi算法
Viterbi本人
动态规划算法,凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法,计算到每步的最短距离,到下步的最短距离只用接着本步的计算即可,相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简单,但在当时确是很了不起的。维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。
5、PageRank
基本思想:搜索返回了成千上万条结果,如何为搜索结果排名?这取决与两组信息:关于网页的质量信息以及这个查询和每个网页的相关性信息。PageRank算法来衡量一个网页的质量,该算法的思想是如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。
6、TF-IDF
词与文档的相关性度量
除了相关性(词频),还要给予一定的平庸惩罚(逆文本指数)
7、有限状态机
地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。
图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。
8、余弦定理
计算文档相似度:将新闻根据词的TF-IDF值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的相似度,将新闻自动聚类。
9、SVD
SVD:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值SVD分解,可以得到隐含在其中的一些信息。
10、信息指纹simhash
信息指纹可以作为信息的唯一标识。有很多信息指纹的产生方法,互联网加密要使用基于加密的伪随机数产生器,常用的算法有MD5或者SHA-1等标准。
11、ME
Maximum entropy, 对一个随机事件预测时,当各种情况概率相等时,信息熵达到最大,不确定性最大,预测的风险最小。
12、布隆过滤器
判断一个元素是否在一个集合当中时,用到了布隆过滤器,存储量小而且计算快速。其原理是:建立一个很长的二进制,将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上,最后在建立的那个很长的二进制上把这些自然数的位置都置为1。
13、EM
Expectation maximization, 该章讲的其实就是K均值聚类问题,设置原始聚类中心,然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(EM)。
首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程,或E过程;接下来,重新计算模型参数,以最大化期望值,这个过程称为最大化的过程,或M过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。
14、logistics regression
logistics regression是最经典的分类器。雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多,点击预估率有很多影响因素,一种有效的方法是逻辑回归模型,逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。
四、 次领域概念引入
1、语言模型
统计语言模型指的就是一个句子出现的概率。
二元模型、三元模型、多元模型,模型元数越多,计算量越大。
平滑处理。
2、信息熵
信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。
引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。
NLP中其他的熵的定义。
3、密码学
RSA加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。
结合信息论谈加密算法。
4、模型重要性
吴军博士总结几个论点:
a\一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。)
b\一个正确的模型一开始可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。)
c\大量准确的数据对研发很重要。
d\正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。
5、数据重要性
统计的重要性,可以找出事实规律
大数据在统计数学中的重要性
五、 信息领域大师、思想介绍
1、贾里尼克
贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。
2、阿米特·辛格
辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且容易找到今后改进的目标。辛格要求对于搜索质量的改进方法都要能说清楚理由,说不清楚理由的改进即使看上去有效也不会采用,因为这样将来可能是个隐患。
3、马库斯
将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇·马库斯。
马库斯教授有很多值得钦佩的地方:给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。
4、思想
a) 自然语言处理研究的”鸟飞派”认为看看鸟怎么飞,就能模仿鸟造出飞机,而不需要了解空气动力学。事实是,怀特兄弟靠的是空气动力学而不是仿生学。
b) 量变为质变的基础。
c) 语言统计模型上,吴军博士表示“根据大数定理,只要统计量足够,相对频度就等于概率!”同时,对于没有看见的事件,不能认为它发生的概率就是零!越是不可信的统计折扣越多。
d) 合理利用信息,而不是玩弄什么公式和机器学习算法,是做好搜索的关键!
e) 中小学生的教育,吴博士论述与弗里德里克·贾里尼克(Frederek Jelinek 自然语言处理真谛的先驱者)小议各自童年、少年的学习经历后,同声不赞同中小学生只会上学考试的教育方式。
f) 弗里德里克·贾里尼克(Frederek Jelinek)甚至说“我每开除一名语言学家,我的语音识别系统就会提高一点。”翻译为投资,或者可以是这样“我每摒弃一名投资学家,我的真实投资系统就会获得一点(收益)。”
g) 科技界的巴菲特:弗里德里克·贾里尼克(FrederekJelinek),可以被称为科技界的巴菲特吗?不是因为金钱的多少,而是因为其对于后辈科技人才的贡献。
h) 简单之美:从事任何工作,其实都没有什么捷径可言。即所谓“术”是要建立在“道”上的。一味走捷径,只求术,结果必然半途而废。
i) 辛格的工业哲学:先帮助用户解决80%的问题,再慢慢解决剩下的20%,是在工业界成功的秘诀之一。许多失败不是因为人不优秀,而是做事情的方法不对!一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之!投资上也是亦然。先设计好自己需要搜集标的公司全部的资料,甚至梦幻到公司每位员工、每台设备的编号,然后是历史所有财务数据的排列、推演,之后是各种估值法的测算。
References:
《数学之美》,吴军
http://www.cnblogs.com/easymind223/archive/2012/08/27/2658873.html
http://www.cnblogs.com/easymind223/archive/2012/09/02/2667380.html
http://blog.sina.com.cn/s/blog_94b1e4ba0101h210.html
http://www.tuicool.com/articles/6jYjmqN