ML简史

原文地址:http://www.52ml.net/15427.html

图 1 机器学习时间线

在科学技术刚刚萌芽的时候,科学家Blaise Pascal和Von Leibniz就想到了有朝一日能够实现人工智能。即让机器拥有像人一样的智能。

机器学习是AI中一条重要的发展线,在工业界和学术界都异常火爆。企业、大学都在投入大量的资源来做机器学习方面的研究。最近,机器学习在很多任务上都有了重大的进步,达到或者超越了人类的水平(例如,交通标志的识别[1],ML达到了98.98%,已超越了人类)。

图1中展示了ML的一个粗略的时间线,标记了很多里程碑。熟悉该图,阅读下文会觉得顺畅很多。

推动机器学习流行化的第一个舵手是Hebb,1949年他提出了神经心理学学习范式——Hebbian学习理论。经过简单的扩展,该理论就开始研究递归神经网络的节点之间的相关度,它记录下网络上的共性然后像记忆一样工作,正式的表达是这样:

假设反射活动的持久性或重复性可以诱导细胞发生变化,以适应这种活动…当神经元细胞A距离神经元细胞B足够近时,它就可以持续重复的激活B,那么这两个细胞之一或者全部就会发生一些代谢过程或生长变化来提高效率[1]。

1952年,IBM的Arthur Samuel写出了西洋棋程序,该程序可以通过棋盘状态学习一个隐式的模型来为下一步给出较好的走法。Samuel和程序对战多局后,觉得这个程序经过一定时间的学习后可以达到很高的水平。

用这个程序,Samual驳倒了机器不能像人类那样可以学习显式代码之上的模式。他定义并解释了一个新词——机器学习。

机器学习是给计算机一种不用显式编程就能获得能力的领域。

1957年,Rosenblatt的感知器算法是第二个有着神经系统科学背景的机器学习模型,它与今天的ML模型已经很像了。在当时,感知器的出现引起了不小的轰动,因为它比Hebbian的想法更容易实现。Rosenblatt用下面的话向大家阐释感知器算法:

感知器算法的作用是,在不用深入理解只对一些特定生物有机体有效的未知条件的前提下,说明了通用智能系统一些基础特点[2]。

3年之后,Widrow [4] 因发明Delta学习规则而载入ML史册,该规则马上就很好的应用到了感知器的训练中,对,没错,就是现在常见的最小二乘问题。感知器和Delta学习规则的联姻着实构造了一个极好的线性分类器。但是,根据后浪拍死前浪的历史规律,感知器的热度在1969被Minskey[3]一盆冷水泼灭了。他提出了著名的XOR问题,论证了感知器在类似XOR问题的线性不可分数据的无力。对神经网络(NN)社区来说,形成了几乎当时看来几乎不可逾越的鸿沟,史称“明斯基之印”。然而无论如何,在10年的19世纪80年代,NN学者们还是打破了这个紧箍咒。

图 2 XOR问题-线性不可分数据示例

被封印后,ML的发展几乎停滞,尽管BP的思想在70年代就被Linnainmaa [5] 以“自动微分的翻转模式”被提出来,但直到1981年才被Werbos [6]应用到多层感知器(MLP)中,直到现在仍是神经网络架构的关键组成部分。多层感知器和BP算法的出现,促成了第二次神经网络大发展,1985-1986年NN研究者们成功的实现了实用的BP算法来训练MLP。(Rumelhart, Hinton, Williams [7]-  Hetch, Nielsen[8])

图 3 来自Hetch和Nielsen

花开并蒂,各表一枝。另一个同样很著名的ML算法在1986年被J. R. Quinlan[9]提出,即决策树算法,具体来说是ID3算法。这是机器学习的另一条主流中一个灯塔式的成就。ID3以其简单的规则和明确的推理,解决了很多现实世界的问题,实际上,它就是以一个实用软件的姿态出现的,相对于黑箱子般的NN算法。

ID3之后,很多其他的算法或改进如雨后春笋般的出现,例如ID4,回归树,CART等等)。直到现在,决策树仍然是ML界中的热点。

图 4 一个简单的决策树

接下来就是ML领域最重要的一个突破——支持向量机(SVM)。SVM由大师Vapnik and Cortes[10] 在1995年提出,它有很强的理论论证和实证结果。自此之后,ML社区就楚河汉界划分为NN和SVM两派。2000年左右,随着核方法的提出,SVM大占上风,在很多领域上都超过了NN模型。除此之外,SVM还发展了一系列的针对NN模型的基础理论,包括凸优化、泛化间隔理论和核方法。可以说,在这个时段,SVM的发展无论是理论还是实践都占尽天时地利,因而发展速度极快。

图 5 From Vapnik and Cortes [10]

不仅在外部遭到了巨大的挑战,NN内部也发生了问题。1991年的Hochreiter[40]和2001年的Hochreiter[11]的工作,都表明在使用BP算法时,NN单元饱和之后会发生梯度损失。简单来说,训练NN模型时,超过一定的迭代次数后,再迭代NN模型就很容易过拟合。

再往前一点点,另一个坚实的ML模型AdaBoost在1997被Freund和Schapire提出,该算法最大的特点在于组合弱分类器形成强分类器。这个成果为它的作者赢得了Godel奖。Adaboost通过给那些难的样例更高的权重来对那些容易训练的分类器进行训练。该模型在脸部识别和检测方面应用的很广。它还是PAC(概率近似正确理论)的一种实现。通常来说,所谓的弱分类器都被Adaboost用来当树桩——即单个的决策树节点。他们这样来描述Adaboost:

作为一个良好的在线预测模型的抽象扩展,Adaboost可以被解释为一个通用的决策理论设置…[11]

另外一个可以将多个决策树组合起来的模型在2001年被Breiman[12]提出。该模型被称为随机森林(RF),因为它的每个组成节点都是随机的选择一组示例和一组特征。RF也拥有理论上和实验上的抗过拟合的证据。甚至有些数据Adaboost都不能很好的克服过拟合和离群点的时候,RF都能有很好的鲁棒性。RF在很多其他不同领域比如Kaggle比赛上都有很成功的表现。

随机森林是一个树预测器的组合体,每棵树都取决于一个独立同分布的随机向量。因而整个森林的泛化误差随着森林数目的增多而收敛[12]。

时间终于走到了当下,一个新的NN领域——深度学习出现了。在这个阶段,NN模型可以拥有多层。3层的NN模型在2005年被Hinton,LeCun, Bengio, Andrew Ng等诸多大师一一实现。下面列举了一些深度学习上的重要概念:

?  GPU programming

?  Convolutional NNs [18][20][40]

?  Deconvolutional Networks [21]

?  Optimization algorithms

?  Stochastic Gradient Descent [19][22]

?  BFGS and L-BFGS [23]

?  Conjugate Gradient Descent [24]

?  Backpropagation [40][19]

?  Rectifier Units

?  Sparsity [15][16]

?  Dropout Nets [26]

?  Maxout Nets  [25]

?  Unsupervised NN models [14]

?  Deep Belief Networks [13]

?  Stacked Auto-Encoders [16][39]

?  Denoising NN models [17]

将上面列举的这些技术和想法综合到一起,NN模型迎来了又一个春天,在物体识别、语音识别、自然语言处理等方面,均击败之前的最高水平的技术。但重要的事,这并不意味着其他ML流派的终结,即使现在深度学习的成功故事还在一个接一个的上演,仍然有着参数众多、训练花费巨大的缺陷。而且,SVM由于其简单性仍然被广泛使用。

在结束之前,我们再介绍一个相对年轻的ML趋势,随着www和社会媒体的发展,大数据出现且影响了很多ML的研究。因为大数据中的问题数据量都极大,很多强大的ML算法在机器性能的限制下都变得有些无用(对大公司来说自然不是这样)。因此,研究人员提出了一套简单模型——dubbed  Bandit Algorithms[27-38],这些算法都是在线学习算法,都能适应大规模问题。

这只是一个简单的ML历史的介绍,若有问题,欢迎指出。

Reference:

[1] Hebb D. O., The organization of behaviour. New York: Wiley & Sons.

[2] Rosenblatt, Frank. "The perceptron: a probabilistic model for information storage and organization in the brain."  Psychological review 65.6 (1958): 386.

[3] Minsky, Marvin, and Papert Seymour. "Perceptrons." (1969).

[4]Widrow, Hoff  "Adaptive switching circuits." (1960): 96-104.

[5]S. Linnainmaa. The representation of the cumulative rounding error of an algorithm as a Taylor

expansion of the local rounding errors. Master’s thesis, Univ. Helsinki, 1970.

[6] P. J. Werbos. Applications of advances in nonlinear sensitivity analysis. In Proceedings of the 10th

IFIP Conference, 31.8 - 4.9, NYC, pages 762–770, 1981.

[7]  Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams.  Learning internal representations by error propagation. No. ICS-8506. CALIFORNIA UNIV SAN DIEGO LA JOLLA INST
FOR COGNITIVE SCIENCE, 1985.

[8]  Hecht-Nielsen, Robert. "Theory of the backpropagation neural network."  Neural Networks, 1989. IJCNN., International Joint Conference on. IEEE, 1989.

[9]  Quinlan, J. Ross. "Induction of decision trees."  Machine learning 1.1 (1986): 81-106.

[10]  Cortes, Corinna, and Vladimir Vapnik. "Support-vector networks."  Machine learning 20.3 (1995): 273-297.

[11]  Freund, Yoav, Robert Schapire, and N. Abe. "A short introduction to boosting." Journal-Japanese Society For Artificial Intelligence 14.771-780 (1999): 1612.

[12]  Breiman, Leo. "Random forests."  Machine learning 45.1 (2001): 5-32.

[13]  Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. "A fast learning algorithm for deep belief nets."  Neural computation 18.7 (2006): 1527-1554.

[14] Bengio, Lamblin, Popovici, Larochelle, "Greedy Layer-Wise

Training of Deep Networks", NIPS’2006

[15] Ranzato, Poultney, Chopra, LeCun " Efficient Learning of  Sparse Representations with an Energy-Based Model ", NIPS’2006

[16] Olshausen B a, Field DJ. Sparse coding with an overcomplete basis set: a strategy employed by V1? Vision Res. 1997;37(23):3311–25. Available at: http://www.ncbi.nlm.nih.gov/pubmed/9425546.

[17] Vincent, H. Larochelle Y. Bengio and P.A. Manzagol,  Extracting and Composing
Robust Features with Denoising Autoencoders
 , Proceedings of the Twenty-fifth International Conference on Machine Learning (ICML‘08), pages 1096 - 1103, ACM, 2008.

[18]  Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36, 193–202.

[19]  LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.

[20]  LeCun, Yann, and Yoshua Bengio. "Convolutional networks for images, speech, and time series."  The handbook of brain theory and neural networks3361 (1995).

[21]  Zeiler, Matthew D., et al. "Deconvolutional networks."  Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010.

[22] S. Vishwanathan, N. Schraudolph, M. Schmidt, and K. Mur- phy. Accelerated training of conditional random fields with stochastic meta-descent. In International Conference on Ma- chine Learning (ICML ’06), 2006.

[23] Nocedal, J. (1980). ”Updating Quasi-Newton Matrices with Limited Storage.” Mathematics of Computation 35 (151): 773782. doi:10.1090/S0025-5718-1980-0572855-

[24] S. Yun and K.-C. Toh, “A coordinate gradient descent method for l1- regularized convex minimization,” Computational Optimizations and Applications, vol. 48, no. 2, pp. 273–307, 2011.

[25] Goodfellow I, Warde-Farley D. Maxout networks. arXiv Prepr arXiv …. 2013. Available at: http://arxiv.org/abs/1302.4389. Accessed March 20, 2014.

[26] Wan L, Zeiler M. Regularization of neural networks using dropconnect. Proc …. 2013;(1). Available at: http://machinelearning.wustl.edu/mlpapers/papers/icml2013_wan13. Accessed
March 13, 2014.

[27]  Alekh Agarwal ,  Olivier
Chapelle
 ,  Miroslav Dudik ,  John
Langford
 ,  A Reliable Effective Terascale Linear Learning System , 2011

[28]  M. Hoffman ,  D.
Blei
 ,  F. Bach ,  Online
Learning for Latent Dirichlet Allocation
 , in Neural Information Processing Systems (NIPS) 2010.

[29]  Alina Beygelzimer ,  Daniel
Hsu
 ,  John Langford , and  Tong
Zhang
   Agnostic Active Learning Without Constraints  NIPS 2010.

[30]  John Duchi ,  Elad
Hazan
 , and  Yoram Singer ,  Adaptive
Subgradient Methods for Online Learning and Stochastic Optimization
 , JMLR 2011 & COLT 2010.

[31]  H. Brendan McMahan ,  Matthew
Streeter
 ,  Adaptive Bound Optimization for Online Convex Optimization , COLT 2010.

[32]  Nikos Karampatziakis  and  John
Langford
 ,  Importance Weight Aware Gradient Updates  UAI 2010.

[33]  Kilian Weinberger ,  Anirban
Dasgupta
 ,  John Langford ,  Alex
Smola
 ,  Josh Attenberg ,  Feature
Hashing for Large Scale Multitask Learning
 , ICML 2009.

[34]  Qinfeng Shi ,  James
Petterson
 ,  Gideon Dror ,  John
Langford
 ,  Alex Smola , and  SVN
Vishwanathan
 , Hash Kernels for Structured Data , AISTAT 2009.

[35]  John Langford ,  Lihong
Li
 , and  Tong Zhang ,  Sparse
Online Learning via Truncated Gradient
 , NIPS 2008.

[36]  Leon Bottou ,  Stochastic
Gradient Descent
 , 2007.

[37]  Avrim Blum ,  Adam
Kalai
 , and  John Langford   Beating
the Holdout: Bounds for KFold and Progressive Cross-Validation
 . COLT99 pages 203-208.

[38]  Nocedal, J.  (1980). "Updating Quasi-Newton Matrices with Limited Storage". Mathematics
of Computation 35: 773–782.

[39] D. H. Ballard. Modular learning in neural networks. In AAAI, pages 279–284, 1987.

[40] S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f ?ur In-

formatik, Lehrstuhl Prof. Brauer, Technische Universit ?at M ?unchen, 1991. Advisor: J. Schmidhuber.


[1]
http://benchmark.ini.rub.de/?section=gtsrb&subsection=results&subsubsection=ijcnn

ML简史,布布扣,bubuko.com

时间: 2024-10-21 16:27:46

ML简史的相关文章

计算机语言的发展简史

计算机语言简史 ----转自马海洋博客 计算机语言总的来说分为机器语言,汇编一语言,高级语言三大类.而这三种语言也恰恰是计算机语言发展历史的三个阶段. 1946年2月14日,世界上第一台计算机ENIAC诞生,使用的是最原始的穿孔卡片.这种卡片上使用的语言是只有专家才能理解的语言,与人类语言差别极大,这种语言就称为机器语言.机器语言是第一代计算机语言.这种语言本质上是计算机能识别的唯一语言,人类很难理解.以后的语言就是在这个的基础上简化而来.虽然后来发展的语言能让人类直接理解但最终送入计算机的还是

Mercedes-Benz NEC BGA 315MHZ 433MHZ 434MHZ GLK GLA GLC ML W204 W207 W212 W221 W222 S300 S350 S400 S500 S550 S600 C180 C200 C260 C300 ES350 GLK300 GLA200 E260L C200 B200 S320L Mercedes-Benz KEY PC

AUTO ECU CHIPS  STOCK ESL Motor  ELV Motor  Steering Lock Wheel Motor for Mercedes-Benz ESL/ELV Motor Steering Lock Wheel Motor for Mercedes-Benz W204 W207 W212 esl motor elv motor Mercedes-Benz NEC   BGA 315MHZ 433MHZ  434MHZ GLK GLA GLC ML W204 W20

Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用

1. Naive Bayes算法 朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一篇文档$d$中出现的词$w_0,w_1,...,w_n$, 这篇文章被分类为$c$的概率为$$p(c|w_0,w_1,...,w_n) = \frac{p(c,w_0,w_1,...,w_n)}{p(w_0,w_1,...,w_n)} = \frac{p(w_0,w_1,...,w_n|c)*p(c

《三联生活周刊》2017年23期:5星。地球年龄与人类进化的检测技术的简史。

本期主题是人类测量地球年龄与人类进化史的技术的简史.地球年龄最终依靠同位素测量法确定为45.5亿年,人类进化史初期是根据化石推测,后来则根据DNA的变化来推算. 个人感觉这是看过的袁岳的文章中最精彩的一篇,有靠谱的技术发展史,故事也比较有意思.袁岳是理科生风格,严肃有余,讲故事的天赋则相对不足.当然反过来说讲故事天赋比较好的人,一般来说写出来的东西可靠性稍差. 以下是书中内容的摘抄,大部分是主题文章的摘抄.#号后面是kindle电子书中的页码: 1:再后来,他采用了一种从铀铅测年法推导出来的铅铅

Notes : <Hands-on ML with Sklearn & TF> Chapter 7

.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .table-bordere

《未来简史》,4星。极少数精英会变成身体结构跟普通人差别极大的神人,神人管理算法,算法管理世界。跟《人类简史》的内容有很大重合。

全书共11章,关于未来的论述主要集中在第9章.关于未来的趋势的判断,推理过程比较少,我感觉也不算严密.基本的观点是随着技术的发展,部分精英会战胜死亡,并且用基因甚至机械改造自己的身体,世界会被这少数精英及他们管理的算法统治. 关于已经发生的历史的章节,大部分内容是把<人类简史>的内容换了角度说一遍(但是不如<人类简史>的思路清晰):人类战胜其他动物是因为人类可以更大规模地合作,人类共同虚构出了国家.宗教等信息作为生活的意义. 总体评价4星. 我感觉<人类简史>和<

万法简史:肯恩&#183;威尔伯的典范革命

2015-05-27                                                 李孟浩                                                 心灵自由                         心灵自由 心灵自由                                 微信号                                 freedomloveaction 功能介绍          

机器学习 - ML

CNCC - 2016 | 机器学习(原文链接) Machine Learning - ML,机器学习是人工智能AI的一个分支. 参考: :

【转载】ODBC, OLEDB, ADO, ADO.Net的演化简史

原文:ODBC, OLEDB, ADO, ADO.Net的演化简史 1.演变历史 它们是按照这个时间先后的顺序逐步出现的,史前->ODBC->OLEDB->ADO->ADO.Net. 看看Wiki上的MDAC定义:“Microsoft Data Access Components(MDAC)是微软专门为数据访问功能而发展的应用程序开发接口,做为微软的统一化数据访问(Universal Data Access; UDA)解决方案的核心组成,最初的版本在1996年时发表,其组成组件有O