[转]基于图的机器学习技术:谷歌众多产品和服务背后的智能

近来机器学习领域实现了很多重大的进展,这些进展让计算机系统具备了解决复杂的真实世界问题的能力。其中,谷歌的机器学习又是怎样的 ?

近来机器学习领域实现了很多重大的进展,这些进展让计算机系统具备了解决复杂的真实世界问题的能力。其中之一是谷歌的大规模的、基于图(graph-based)的机器学习平台,该平台由Google Research的Expander团队打造。

基于图的机器学习支持着你可能每天都在使用的谷歌产品和功能,这项技术是一种强大的工具,可以被用于驱动Inbox的提醒功能和Allo的智能回复,或者与深度神经网络联合使用以驱动Google Photos最新的图像识别系统。

用最少的监督进行学习

深度学习以及广义上的机器学习领域内的许多近来的进步都可归功于经过了在有标注的大数据集上的训练之后具有高度预测能力的模型——其训练样本数量往往数以亿计。这常常被称为监督学习(supervised learning),因为它需要监督(以有标注数据的形式)来训练机器学习系统。(相对地,一些机器学习方法则是直接运行在原始数据上,不需要任何监督,这种范式被称为无监督学习(unsupervised learning)。)

但是,任务越困难,获得足够的高质量有标注数据的难度就越大。为每一个新问题都收集足够的有标注数据在人力消耗和时间消耗上都是让人无法接受的。这促使了Expander研究团队研发只需最少的监督就能驱动大规模机器学习应用的新技术。

Expander的技术灵感来自于人类学习归纳和将从未见过的新信息(无标注的信息)与他们已经知道的信息(有标注的信息)联系起来的方式。这被称为半监督学习(semi-supervised learning),这种强大的技术让我们可以打造出能工作在训练数据可能很稀疏的情况下的系统。基于图的半监督机器学习(graph-based semi-supervised machine learning)方法这一进步的关键是:

(a) 利用数据中的底层结构,可以在学习过程中对有标注和无标注数据联合建模;

(b) 可以轻松地将多种类型的信号(如来自知识图谱的关系信息和数据的原始特征)结合成一个单一的图表征(graph representation)并在那些数据上进行学习。

这与神经网络等其它机器学习方法不一样——其它方法通常是首先先使用带有特征的有标注数据训练出一个系统,然后将训练出的系统应用于无标注数据。

图学习:工作方式

在 Expander 的平台的核心,它通过构建数据的一个多图表征(multi-graph representation)而将半监督机器学习和大规模的基于图的学习结合到了一起;在这个多图表征中,节点(node)对应于物体或概念,边(edge)则对应于具有相似之处的概念之间的连接。这种图(graph)通常既包含了有标注数据(与已知输出类别和标签关联的节点)和无标注数据(没有被提供标签的节点)。然后Expander的框架执行半监督学习以通过在整个图中传播标签信息而联合地给所有的节点进行标注。

但是,说起来比做起来容易!我们必须:

1. 使用最少的监督(即:极少有标注数据)实现有效的规模化学习;

2. 运行在多模态数据上(即:异构的表征和各种类型的数据源);

3. 解决涉及可能带有噪声的高维数据的高难度预测任务(即:大而复杂的输出空间)。

整个学习过程中的一个主要成分是图和连接的选择。图有各种规模大小和形状,可以从多个数据源结合而成。我们已经观察到从结合了多种数据表征(如:图像像素、物体类别和用于Allo中PhotoReply的聊天回应信息)的信息的多图(multi-graphs)中学习往往是有利的。Expander团队的图学习平台可以基于数据元素之间推理出的和已知的关系直接从数据中自动生成图。其数据可以是结构化的(如关系数据),也可以是非结构化的(如从原始数据集提取出的稀疏或稠密的特征表征)。

要理解Expander的系统的学习方式,让我们思考一下下面这个例子。

该图中有两种类型的节点:“灰色”代表无标注数据,而其它颜色则代表有标注数据。节点数据之间的关系通过边表示,每条边的厚度代表连接的强度。我们可以将这个简单图的半监督学习问题描述成:预测图中每个节点的颜色(红色或蓝色)。注意:图的结构和颜色的特定选择是根据任务确定的。比如,正如我们在研究论文《Smart Reply: Automated Response Suggestion for Email》中提到的,我们为Inbox的Smart Reply功能构建的图可将电子邮件信息表示成节点,而颜色则可代表用户回应的语义类别(如,“yes”、“awesome”、“funny”)。

Expander图学习框架通过将这个标注任务当作是一个优化问题进行处理而解决了这个问题。从最简单的层面上讲,它会为图的每个节点分配一个颜色标签,并根据节点之间的连接强度给相邻的节点分配相似的颜色。解决这个问题的一种天真的方式是尝试一次性为所有节点学习一个标签分配——但这种方法无法扩展到大型的图。相反,我们可以通过将有标注节点的颜色传播到它们的相邻节点,并不断重复这个过程来优化这个问题的形式。在每一步中,都会通过检查一个无标注节点的相邻节点的颜色配置而给其分配一个标签。我们可以以这种方式更新每一个节点的标签,并不断迭代直到整个图都被标注上颜色。在优化这种问题上,这个过程是一种远远更为有效的方法;而且在这个案例中,迭代的序列会收敛成一个特定的解决方案。在图传播的最后的解决方案看起来像是这样的:

在一个图上的半监督学习

实际上,我们可以使用根据图结构定义的复杂优化函数,其整合了额外的信息和限制,使半监督学习可以应对困难的非凸问题。但是,真正的难题是将其有效地扩展到包含了数十亿个节点和数万亿条边,用于处理涉及到数十亿不同标签类型的复杂任务的图。

为了解决这一难题,我们创造了一种被称为“使用流逼近的大规模分布式半监督学习(Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation)”的方法,该论文发表于去年。它介绍了一种流算法(streaming algorithm),该算法可以以一种分布式的方式处理从相邻节点传播来的信息,这种方式使其能够工作在非常大型的图上。此外,它还能解决其它实际的问题,其中值得注意的是它能够确保系统的空间复杂性或内存需求保持恒定,而且不论任务的难度如何都可以;即:不论预测标签的数量是2(如上面示意的图)还是100万甚至是10亿,整个系统所使用的内存量都一样。这能使自然语言处理、机器感知、用户建模和甚至联合多模态学习在涉及文本、图像和视频输入等多模态数据的任务上的广泛应用成为现实。

用于学习幽默的语言图

情绪标注(emotion labeling)是基于图的机器学习的一个应用案例,这也是Inbox的Smart Reply功能的一个语言理解任务,其目标是使用它们经过精细调节的情绪分类标记自然语言文本中出现的词。首先是在文本语料库上应用一个神经网络模型来学习词嵌入(word embeddings),这是每个词的含义的数学向量表示。然后这个稠密的嵌入向量被用于构建一个稀疏的图,其中的节点对应于词,而边对应于词之间的语义关系。边的强度通过嵌入向量之间的相似度计算得到——忽略低相似度的边。我们使用先前已知的几个节点的情绪标签(例如:laugh被标注为“funny”)作为图的基础,然后在整个图上应用半监督学习来发现剩余词的情绪类别(如:ROTFL(滚地大笑)被标注为“funny”,因为它有与“laugh”的多跳语义连接(multi-hop semantic connection)。

使用构建于词嵌入向量的图学习情绪关联

对于涉及大型数据集或稠密表征(可被观察到(如图像的像素)或使用神经网络学习到(如嵌入向量))的应用而言,计算所有物体之间的成对的相似度来构建图中的边是不可行的。Expander团队通过利用近似的线性时间图构建算法(linear-time graph construction algorithms)解决了这个问题。

基于图的机器智能在行动

Expander团队的机器学习系统现在已经被用在了大型图(包含数十亿节点和数万亿边)上,以识别和理解自然语言、图像、视频和查询中的概念,并支撑着谷歌的许多应用和产品,其中包括:提醒、问答、语言翻译、视觉物体世界、对话理解等等。

随着近期Allo的发布,数百万聊天用户现在已经可以体验Expander团队的系统所驱动的智能消息技术了,这些技术可以理解和协助多种语言的聊天会话。另外,这项技术不只被用在了云端的大规模模型中——正如上周宣布的那样,Android Wear已经向开发者开放了设备本地的Smart Reply功能,让开发者可以为任何消息应用提供智能回复。我们很期待在未来几年内通过Expander解决更多充满挑战性的互联网规模级的问题。

时间: 2024-08-03 08:16:10

[转]基于图的机器学习技术:谷歌众多产品和服务背后的智能的相关文章

机器学习技术在达观数据的实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测.支付平台的欺诈交易监测等等.达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统.作弊监测系统.用户建模系统等多个基于大数据技术的应用系统.机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始人 纪传俊) CIK

了解微软开源核心机器学习技术DMTK

还记得11月9日Google Research推出第二代开源机器学习软件库TensorFlow吧,谷歌称在建立和训练神经网络方面,TensorFlow速度要比第一代系统快5倍,可支持 CPU.GPU.桌面机.服务器和移动计算等平台.TensorFlow吸引了开发者广泛的眼球. 就在同一天,微软亚洲研究院也开源了分布式机器学习工具包DMTK.开源版DMTK包含了目前世界上最大规模的主题模型和分布式词向量模型,据称比同类模型高了好几个数量级.以至于有开发者惊呼,怎么微软也能把这样的核心技术给开源了?

基于图的关键词抽取

项目研究背景: 在关键词抽取研究中,最常用的一种方法就是通过计算一篇文档中词语的TF-IDF值(term frequency-inverse document frequency),并对它们进行排序选取TopK个作为关键词,这是一种无监督的方法.另外一种方法是通过有监督的方法,通过训练学习一个分类器,将关键词抽取问题转化为对每个词语的二分类问题,从而选择出合适的关键词. 无监督和有监督各有各的优势和缺点:无监督学习,不需要人工标注,训练集合的过程,因此更加方便和快捷:然而监督学习的方法,在进行了

Python数据挖掘与机器学习技术入门实战

摘要: 什么是数据挖掘?什么是机器学习?又如何进行Python数据预处理?本文将带领大家一同了解数据挖掘和机器学习技术,通过淘宝商品案例进行数据预处理实战,通过鸢尾花案例介绍各种分类算法. 课程主讲简介:韦玮,企业家,资深IT领域专家/讲师/作家,畅销书<精通Python网络爬虫>作者,阿里云社区技术专家. 以下内容根据主讲嘉宾视频分享以及PPT整理而成. 本次课程包含了五个知识点:1.数据挖掘与机器学习技术简介 2.Python数据预处理实战 3.常见分类算法介绍 4.对鸢尾花进行分类案例实

来,了解下用Python实现的四种机器学习技术!

机器学习技术VS.算法 虽然本教程专门讨论Python的机器学习技术,但我们很快就会转向算法.但在我们开始关注技术和算法之前,让我们先看看它们是否是同一回事. A 技术是解决问题的方法.这是一个相当通用的术语.但当我们说我们有一个算法,我们的意思是,我们有一个输入,并希望从它得到一个特定的输出.我们已经明确规定了实现这一目标所应遵循的步骤.我们将不遗余力地说,一个算法可以使用多种技术来获得输出. 现在我们已经区分了这两种技术,让我们来了解更多关于机器学习技术的内容. 用Python实现机器学习技

DCOS实践分享(1):基于图形化模型设计的应用容器化实践

2015年11月29日,Mesos Meetup 第三期 - 北京技术沙龙成功举行.本次活动由数人科技CTO 肖德时 和 Linker Networks 的 Sam Chen 一起组织发起. 在这次meetup中,我分享了<<基于图形化模型设计的应用容器化>> ppt下载 http://download.csdn.net/detail/popsuper1982/9544928 上图片

基于物理的渲染技术(PBR)系列二

笔者介绍:姜雪伟,IT公司技术合伙人,IT高级讲师,CSDN社区专家,特邀编辑,畅销书作者,国家专利发明人;已出版书籍:<手把手教你架构3D游戏引擎>电子工业出版社和<Unity3D实战核心技术详解>电子工业出版社等. CSDN视频网址:http://edu.csdn.net/lecturer/144 继续上篇博客中基于物理的渲染技术(PBR)系列一的讲解,在这里我们引入了一种被称为渲染方程(Render Equation)的东西.它是某些聪明绝顶人所构想出来的一个精妙的方程式,是

基于内容的图像检索技术

图像检索的本质是对图像特征的提取与基于特征的匹配技术,图像的特征包括图像的文本特征.视觉特征,所谓图像的文本特征是指与图像相关的文本信息,比如图像的名称.对图像的注解文字等,而目前比较成熟应用于网络环境下的图像检索系统比如Google.百度等均属于这类.图像的视觉特征是指图像本身所拥有的视觉信息,又可以进一步分为通用的视觉特征和领域特征,如颜色.纹理.形状等属于图像通用特征,而光谱特征则属于地理科学中遥感影像独有的特征. 从发展演变历程来看,根据图像检索系统所提取图像特征可分为两类,第一类即基于

基于图卷积网络的图深度学习

基于图卷积网络的图深度学习 先简单回顾一下,深度学习到底干成功了哪些事情! 深度学习近些年在语音识别,图片识别,自然语音处理等领域可谓是屡建奇功.ImageNet:是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库,并且被业界熟知. 我们先回顾一下,没有大数据支撑的欧式深度学习技术.对于一个字母"Z"的识别,我们通常是建立一个2D网格(点阵),如果将其中的点连接起来,定义这样的连接方式所形成的就是"Z".然后是用其他字母来测试,这个模型的正确性. 传统