KDD 2018 | 最佳论文:首个面向Facebook、arXiv网络图类的对抗攻击研究

8 月 19 日至 23 日,数据挖掘顶会 KDD 2018 在英国伦敦举行,昨日大会公布了最佳论文等奖项。最佳论文来自慕尼黑工业大学的研究者,他们提出了针对图深度学习模型的对抗攻击方法,是首个在属性图上的对抗攻击研究。研究者还提出了一种利用增量计算的高效算法 Nettack。此外,实验证明该攻击方法是可以迁移的。

图数据是很多高影响力应用的核心,比如社交和评级网络分析(Facebook、Amazon)、基因相互作用网络(BioGRID),以及互连文档集合(PubMed、Arxiv)。基于图数据的一个最常应用任务是节点分类:给出一个大的(属性)图和一些节点的类别标签,来预测其余节点的类别标签。例如,你可能想对生物相互作用图(biological interaction graph)中的蛋白质进行分类、预测电子商务网络中用户的类型 [13],或者把引文网络中的科研论文按主题分类 [20]。

尽管过去已经出现很多解决节点分类问题的经典方法 [8, 22],但是近年来人们对基于图的深度学习方法产生了极大兴趣 [5, 7, 26]。具体来说,图卷积网络 [20, 29] 方法在很多图学习任务(包括节点分类)上达到了优秀性能。

这些方法的能力超出了其非线性、层级本质,依赖于利用图关系信息来执行分类任务:它们不仅仅独立地考虑实例(节点及其特征),还利用实例之间的关系(边缘)。换言之,实例不是被分别处理的,这些方法处理的是某种形式的非独立同分布(i.i.d.)数据,在处理过程中利用所谓的网络效应(如同质性(homophily)[22])来支持分类。

但是,这些方法存在一个大问题:人们都知道用于分类学习任务的深度学习架构很容易被欺骗/攻击 [15, 31]。即使是添加轻微扰动因素的实例(即对抗扰动/样本)也可能导致结果不直观、不可信,也给想要利用这些缺陷的攻击者开了方便之门。目前基于图的深度学习方法的对抗扰动问题并未得到解决。这非常重要,尤其是对于使用基于图的学习的领域(如 web),对抗非常常见,虚假数据很容易侵入:比如垃圾邮件制造者向社交网络添加错误的信息;犯罪分子频繁操控在线评论和产品网站 [19]。

该论文试图解决这一问题,作者研究了此类操控是否可能。用于属性图的深度学习模型真的很容易被欺骗吗?其结果可信程度如何?

答案难以预料:一方面,关系效应(relational effect)可能改善鲁棒性,因为预测并未基于单独的实例,而是联合地基于不同的实例。另一方面,信息传播可能带来级联效应(cascading effect),即操纵一个实例会影响到其他实例。与现有的对抗攻击研究相比,本论文在很多方面都大不相同。

图 1:对图结构和节点特征的极小扰动导致目标误分类。

该论文提出一个对属性图进行对抗扰动的原则,旨在欺骗当前最优的图深度学习模型。具体来说,该研究主要针对基于图卷积网络(如 GCN [20] 和 Column Network(CLN)[29])的半监督分类模型,但提出的方法也有可能适用于无监督模型 DeepWalk [28]。研究者默认假设攻击者具备全部数据的知识,但只能操纵其中的一部分。该假设确保最糟糕情况下的可靠脆弱性分析。但是,即使仅了解部分数据,实验证明本研究中的攻击仍然有效。该论文的贡献如下:

  • 模型:该研究针对节点分类提出一个基于属性图的对抗攻击模型,引入了新的攻击类型,可明确区分攻击者和目标节点。这些攻击可以操纵图结构和节点特征,同时通过保持重要的数据特征(如度分布、特征共现)来确保改变不被发现。
  • 算法:该研究开发了一种高效算法 Nettack,基于线性化思路计算这些攻击。该方法实现了增量计算,并利用图的稀疏性进行快速执行。
  • 实验:实验证明该研究提出的模型仅对图进行稍微改动,即可恶化目标节点的分类结果。研究者进一步证明这些结果可迁移至其他模型、不同数据集,甚至在仅可以观察到部分数据时仍然有效。整体而言,这强调了应对图数据攻击的必要性。

论文:Adversarial Attacks on Neural Networks for Graph Data

论文链接:https://arxiv.org/pdf/1805.07984.pdf

摘要:应用到图的深度学习模型已经在节点分类任务上实现了强大的性能。尽管此类模型数量激增,但目前仍未有研究涉及它们在对抗攻击下的鲁棒性。而在它们可能被应用的领域(例如网页),对抗攻击是很常见的。图深度学习模型会轻易地被欺骗吗?在这篇论文中,我们介绍了首个在属性图上的对抗攻击研究,具体而言,我们聚焦于图卷积模型。除了测试时的攻击以外,我们还解决了更具挑战性的投毒/诱发型(poisoning/causative)攻击,其中我们聚焦于机器学习模型的训练阶段。

我们生成了针对节点特征和图结构的对抗扰动,因此考虑了实例之间的依赖关系。此外,我们通过保留重要的数据特征来确保扰动不易被察觉。为了应对潜在的离散领域,我们提出了一种利用增量计算的高效算法 Nettack。我们的实验研究表明即使仅添加了很少的扰动,节点分类的准确率也会显著下降。另外,我们的攻击方法是可迁移的:学习到的攻击可以泛化到其它当前最佳的节点分类模型和无监督方法上,并且类似地,即使仅给定了关于图的有限知识,该方法也能成功实现攻击。

图 2:随着扰动数量的增长,平均代理损失(surrogate loss)的变化曲线。由我们模型的不同变体在 Cora 数据集上得到,数值越大越好。

图 3 展示了在有或没有我们的约束下,得到的图的检验统计量 Λ。如图可知,我们强加的约束会对攻击产生影响;假如没有强加约束,损坏的图的幂律分布将变得和原始图更加不相似。类似地,表 2 展示了特征扰动的结果。

图 3(左):检验统计量 Λ 的变化(度分布)。图 4(右)梯度 vs. 实际损失。

表 2:Cora 上每个类别中的特征扰动 top-10。

图 6a 评估了两个攻击类型的 Nettack 性能:逃逸攻击(evasion attack),基于原始图的模型参数(这里用的是 GCN [20])保持不变;投毒攻击(poisoning attack),模型在攻击之后进行重新训练(平均 10 次运行)。

图 6b 和 6c 显示,Nettack 产生的性能恶化效果可迁移至不同(半监督)图卷积方法:GCN [20] and CLN [29]。最明显的是,即使是无监督模型 DeepWalk [28] 也受到我们的扰动的极大影响(图 6d)。

图 6:使用不同攻击算法在 Cora 数据上的结果。Clean 表示原始数据。分值越低表示结果越好。

图 7 分析了攻击仅具备有限知识时的结果:给出目标节点 v_0,我们仅为模型提供相比 Cora 图其尺寸更大的图的子图。

图 7:具备有限数据知识的攻击。

表 3 总结了该方法在不同数据集和分类模型上的结果。这里,我们报告了被正确分类的部分目标节点。我们对代理模型(surrogate model)的对抗扰动可在我们评估的这些数据集上迁移至这三种模型。毫不奇怪,influencer 攻击比直接攻击导致的性能下降更加明显。

表 3:结果一览。数值越小表示结果越好。

原文地址:https://www.cnblogs.com/alan-blog-TsingHua/p/9733946.html

时间: 2024-07-31 08:49:44

KDD 2018 | 最佳论文:首个面向Facebook、arXiv网络图类的对抗攻击研究的相关文章

欧洲维修年度大会圆满结束,李葆文教授荣获大会最佳论文奖

希腊时间2016年6月1日,欧洲维修年度大会在雅典黎德酒店圆满结束! 中国设备管理协会国际合作交流中心主任李葆文教授和徐保强副教授分别分享了<智能维护体系,时代的挑战>和<精益TnPM在中国的发展与应用>主题演讲.李葆文教授的发言深受与会者的欢迎和认可,取得了巨大成功.最后,李教授的报告在大会中脱颖而出,荣获"欧洲维修联合会国际会议最佳论文奖"(100多个发言中仅评选5名获此殊荣)和欧洲维修联合会著名的"萨沃蒂尼奖金".这是第一次来自中国的代

重磅 | 九州云两大解决方案获评2018最佳实践奖

近日,由通信世界全媒体特别举办的"2018年通信及行业信息化优秀解决方案"评选榜单终于揭晓,"九州云Animbus异构纳管解决方案"及"九州云Animbus智慧行政云解决方案"均获评"2018最佳实践奖",得到了三大电信运营商.运营商研究院及垂直行业企业专业评审队伍的一致认可,再次证明了九州云促进OpenStack开源技术落地实践的实力. 2018年是信息通信业发展的关键一年.这一年,伴随着网络强国和数字中国战略的推进,信息通

Unity Awards 2018最佳资源

好的工具与资源,将帮助你的开发,达到事办功倍,今天我们将为大家介绍荣获Unity Awards 2018最佳资源的获奖作品. 最佳艺术工具:Aura - Volumetric Lighting Aura是由开发者Raphael Ernaelsten创作的一个Unity体积光照解决方案.Aura 在Unity Awards 2018荣获最佳艺术工具. Aura可以模拟光线在环境介质中的散射效果,以及环境中无法通过肉眼或摄像机观察的微粒光照效果,即“体积雾”效果,打造出非常逼真的光照环境. Aura

三道习题(1、将单词表中由相同字母组成的单词归成一类,每类单词按照单词的首字母排序,并按 #每类中第一个单词字典序由大到小排列输出各个类别。 #输入格式:按字典序由小到大输入若干个单词,每个单词占一行,以end结束输入。)

#coding=gbk ''' 1.将单词表中由相同字母组成的单词归成一类,每类单词按照单词的首字母排序,并按 #每类中第一个单词字典序由大到小排列输出各个类别. #输入格式:按字典序由小到大输入若干个单词,每个单词占一行,以end结束输入. #cinema #iceman #maps #spam #aboard #abroad #end #输出格式:一类单词一行,类别间单词以空格隔开. #aboard abroad #cinema iceman #maps spam ''' result=[]

面向SOA服务架构的案例分析的研究

转:https://www.cnblogs.com/ljysy/p/10916950.html 随着互联网应用的不断发展,网络业务的种类.数量不断增加,计算机网络管理的研究重点正在由过去的个别资源监控.应用可用性阶段,向着如何通过网络获得所需业务.业务流程的优化.保障业务服务水平方向发展.但这并不意味着可以完全抛弃传统的已有的网络管理,重新开发面向业务的网管;相反,传统网管是实现有效的业务管理和保证业务过程.业务质量的基础[1].但是传统的网络管理以集中式 半分布式的M A模型为主,网络只被动传

论文学习 - 《面向海量存储系统的分层存储技术研究》

摘要 随着现代社会信息量的迅速增大,一方面需要有超大容量的海量存储系统来存储这些数据,另一方面在该海量存储系统中,被经常访问到的只有其中一小部分.这样的事实驱动我们对海量数据采取分层存储管理的方式. 分层存储的主要思想是将活跃数据文件存放在高性能存储设备上,而将不活跃数据文件存放到速度慢但廉价且容量大的存储设备中. 目前的分层存储技术存在着以下的问题: 1. 典型的文件价值判定方法仅仅考虑数据本身的固有属性和历史访问频率,没有考虑文件的访问模式,也没有分析将文件存放在存储系统的哪个层次来加快存储

4月02日 提取汉字首字母,并大写的类

  public class GetStringSpell    {        /// <summary>          /// 提取汉字首字母          /// </summary>          /// <param name="strText">需要转换的字</param>          /// <returns>转换结果</returns>          public strin

2014中国科技核心期刊(中国科技论文统计源期刊)名录——计算机类

2014中国科技核心期刊(中国科技论文统计源期刊)名录 —— 中信所发布的

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍

数据集的介绍 1."鲍鱼年龄"数据集(Abalone Data Set).是通过预测鲍鱼环,也就是鲍鱼的年轮,来推断鲍鱼寿命.该数据集来自于UCI(University of California,Irvine,UCI)提出的用于机器学习的数据库. 共有八个属性分别是:性别.长度.直径等 具体的属性的介绍 方法一:利用BP 方法使用ELM 方法三:使用SVM 我:通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的,我们要做的就是知道每个函数的具体的意义,以及知道大致的