Martin Wainwright:用统计机器学习算法,加速人工智能的普及

(上图为美国加州大学伯克利分校的教授Martin Wainwright)

Martin Wainwright是国际著名的统计学和计算科学专家,作为美国加州大学伯克利分校的教授,他既任教于该校的统计学系也任教于该校的电子工程与计算科学(EE&CS)系,由此而具备了横跨数学与计算科学两个领域的独特观点与优势。

在2017年7月15日由顺丰科技、钛媒体和杉数科技共同举办的“AI与智慧物流圆桌论坛”上,Martin介绍了一种近两年来出现的新型统计机器学习算法Newton Sketch,该算法有助于超大规模数据集的快速优化、分析与理解。

作为全球统计学顶级大奖COPSS的2014年获得者,Martin强调Newton Sketch可以用更短的计算时间和更低的计算成本来处理超大规模高维数据集和高维神经元网络,这对于推动人工智能在商业领域的快速普及有着重要意义。

大数据引发的高维现象

统计学最早起源于两千多年前的古希腊。现代统计学以数理统计为代表,数理统计则以概率论为基础,属于基础数学学科,统计学由此进入了统计与数学结合阶段。

二十世纪初,t分布论文发表,出现了小样本代替大样本进行统计研究的方法,由此开辟了统计学新时代。统计学的核心问题就转化为:根据样本探求有关总体的真实情况。而过去由于计算设备、存储设备和计算能力等限制,无法获得全体数据集,在近十年来,这变成了可能。视频数据、社交数据、工业数据、各类传感器数据等培育了所谓大数据现象。根据IBM在2013年的一项研究,之前的两年产生的数据量接近全球数据总量的90%。IDC预测从2013年开始,全球数据总量每两年翻一番。

过去没有全体世界的数据,只能通过极少数据去推断,而现在不仅存在全体世界的数据,而且还在不断膨胀。更进一步地,一个数据对象有上千甚至上万个维度(属性),也就是“高维数据”。当计算和存储设备可以捕获全体数据的时候,问题就变成如何对全体世界的数据进行降维,从而可以在有限的时间和成本内理解和反映真实世界的情况。

统计机器学习对人工智能的意义

经典统计学、计算科学和人工智能应用等的交集,出现了数据科学。数据科学是经典统计学、计算机及应用的交集。Martin介绍说,在过去的数年间,学术界和产业目睹了数据科学这场变革,统计机器学习也应运而生。

统计机器学习是一门新兴的交叉学科,融合了计算科学、优化和系统科学,因此很多研究命题都来源于实际应用。在现实中,数据流规模日益增长,也变得更加动态和异构,因而对于算法的要求越来越高,而统计机器学习为此提供了一套非常有效的分析方法。相关领域例如生物信息学、人工智能、信号处理、通信、金融、控制论无一不受到统计机器学习的巨大影响。

Martin表示,由于数据噪音和丢失数据等原因,真实世界的大数据问题很有挑战,机器学习的目标是通过自动化的软件流程从数据中提取可靠、有用的信息,而统计推理本身也可从数据噪音中提取有用信息,二者结合将有更好的效果。

随机投影(Randomized Projection)是近年来新兴的统计机器学习中的算法,它把高维大数据集“投影”到低维数据集,而在降维过程中并不损失有效信息,这样就只需要在低维空间研究数据即可。Martin表示,随机投影已经在多个领域得到广泛应用,被证明是有效的算法。在此基础之上,Martin把该算法用于经典牛顿迭代非线性优化算法,即为Newton Sketch。

2015年5月,Martin与同事Mert Pilanci一起发表了论文《Newton Sketch: A Linear-time Optimization Algorithm with Linear-Quadratic Convergence》,该论文介绍了把随机投影方法和抽样Hessian函数用于牛顿迭代法,取得了非常好的近似线性效果,从而大幅简化了牛顿迭代的复杂性,可广泛用于大规模线性规划和二次规划等非线性规划问题,例如逻辑回归(Logistic Regression),支持向量机(Support Vector Machine)等机器学习模型。

Newton Sketch对于深度学习为代表的机器学习算法有何意义呢?Martin表示,深度神经元网络需要GPU等特殊硬件的支持,虽然近年来谷歌等公司也在开发TPU等新型专用硬件、GPU也取得了大幅进展,但价格依然不菲。另一方面,深度神经元网络本身在实际的商业应用中还缺乏工程稳定性,特别是在数据质量不佳的情况下容易失效。最重要的是深度神经元网络有着“数据饥饿”现象:需要大量数据用于模型训练。而Newton Sketch则能大幅简化深度神经元网络应用的前提和条件。

Newton Sketch非常适于分布式的机器学习任务。在分布式机器学习中,海量数据分散存储在计算机集群的节点上,机器学习算法必须反复遍历这些数据,寻求最优模型。而Newton Sketch方法通过随机概括(Randomized Skeching)的技术来计算一个“合成数据集”。这个数据集概括了原有数据的本质信息,并且往往规模很小,甚至可以由单机处理。在这个数据集上进一步分析与建模,就可以获得更快速度、更低成本、更高效率的计算效果。

以Newton Sketch为代表的统计机器学习算法,为人工智能在现实商业世界的快速普及打开了一条道路,对于城市交通、智慧物流、电力网络等复杂巨系统的研究与建模有着很重要的现实意义,甚至对于电商推荐系统、社交网络评分系统等也有很高的价值,因为这些都是高维数据。

正如Martin在“AI与智慧物流圆桌论坛”所说,现实生活中数据大多都“生活”在“高维空间”,越简单方式处理高维数据就越有现实意义。随着像Martin这样的国际学术专家把统计机器学习等算法介绍到中国,有望加速人工智能等解决中国大数据现象的挑战,以工程化方式让人工智能算法真正落地,创造商业价值。(文/宁川)

时间: 2024-08-18 09:03:34

Martin Wainwright:用统计机器学习算法,加速人工智能的普及的相关文章

转:图解十大经典机器学习算法入门

原文:https://blog.csdn.net/jrunw/article/details/79205322 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将

机器学习---基础----图解十大经典机器学习算法入门

转自:https://blog.csdn.net/jrunw/article/details/79205322 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将

图解十大经典机器学习算法

图解十大经典机器学习算法 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将对常用算法做常识性的介绍,没有代码,也没有复杂的理论推导,就是图解一下,知道这些算法是

SVM(支持向量机)与统计机器学习 & 也说一下KNN算法

因为SVM和统计机器学习内容很多,所以从 http://www.cnblogs.com/charlesblc/p/6188562.html 这篇文章里面分出来,单独写. 为什么说SVM和统计学关系很大. 看统计学的定义:统计学是通过搜索.整理.分析.描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学. 通过有限的样本,来预测更多的泛化空间的效果,本身就是机器学习的奋斗目标. 而SVM又是基于统计学理论的基础: 基于数据的机器学习是现代智能技术中的重要方面, 研究从观测数据

从单体智能到群体统筹,优化算法推动人工智能新浪潮

(上图为斯坦福大学李国鼎工程讲座教授.杉数科技首席科学顾问叶荫宇) 过去两年出现了人工智能的热潮,特别是以深度学习算法为代表人工智能在中国市场出现了井喷现象.根据麦肯锡统计,2016年全球科技巨头在人工智能上投入了 200亿到300亿美元,VC/PE投融资达60亿到90亿美元.在中国,根据钛媒体TMTbase全球创投数据库的数据统计,目前共收录中国人工智能企业398家.共发生571起投资事件,投资总额高达571亿人民币. 就在AlphaGo先后挑战世界和中国围棋高手后,关于人工智能的热炒更有甚嚣

机器学习算法分类

转自@王萌,有少许修改. 机器学习起源于人工智能,可以赋予计算机以传统编程所无法实现的能力,比如飞行器的自动驾驶.人脸识别.计算机视觉和数据挖掘等. 机器学习的算法很多.很多时候困惑人们的是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性. 学习方式 将算法按照学习方式分类可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督学习  在监督学习中,输入数据被称为"训

机器学习算法之旅

在理解了我们须要解决的机器学习问题之后,我们能够思考一下我们须要收集什么数据以及我们能够用什么算法.本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,非常有帮助. 机器学习领域有非常多算法,然后每种算法又有非常多延伸,所以对于一个特定问题,怎样确定一个正确的算法是非常困难的.本文中我想给你们两种方法来归纳在现实中会遇到的算法. 学习方式 依据怎样处理经验.环境或者不论什么我们称之为输入的数据,算法分为不同种类.机器学习和人工智能课本通常先考虑算法能够适应的学习方式. 这里仅仅讨论几个基

流行的机器学习算法概述

本文我们会概述一些流行的机器学习算法. 机器学习算法很多,并且它们自身又有很多延伸.因此,如何确定解决一个问题的最好算法是很困难的. 下面我们先说基于学习方式对算法的分类和算法之间的相似性,让大家有个整体意识:接着再陈述各类算法. 一.基于学习方式对算法的分类 根据如何处理经验.环境或者任何我们称之为输入的数据,算法分为不同种类.机器学习和人工智能课本通常先考虑算法可以适应的学习方式. 这里只讨论几个主要的学习风格或学习模型,并且有几个基本的例子.这种分类或者组织的方法很好,因为它迫使你去思考输

机器学习算法之旅【转】

在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法.本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助. 机器学习领域有很多算法,然后每种算法又有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的.本文中我想给你们两种方法来归纳在现实中会遇到的算法. 学习方式 根据如何处理经验.环境或者任何我们称之为输入的数据,算法分为不同种类.机器学习和人工智能课本通常先考虑算法可以适应的学习方式. 这里只讨论几个主要的学习风格或