用Caffe生成对抗样本

同步自我的知乎专栏:https://zhuanlan.zhihu.com/p/26122612

上篇文章 瞎谈CNN:通过优化求解输入图像 - 知乎专栏 中提到过对抗样本,这篇算是针对对抗样本的一个小小扩充:用Fast Gradient Sign方法在Caffe中生成对抗样本。

本文代码的完整例子可以在下面地址下载:

frombeijingwithlove/dlcv_for_beginners

Fast Gradient Sign方法

先回顾一下 瞎谈CNN:通过优化求解输入图像 - 知乎专栏 中通过加噪音生成对抗样本的方法,出自Christian Szegedy的论文《Intriguing properties of neural networks》:


其中n是要求的噪音,是相应的系数,L是x+n属于某个类别的loss,c是某个错误类别的标签。论文中用来得到图像噪声的办法是L-BFGS,这个方法虽然稳定有效,但是很考验算力的,Christian在Google反正机器多又强,用这个方法产生对抗样本自然没有问题,但如果不是土豪的话就不太合适了。针对这个问题,这篇文章的第六作者,生成式对抗网络的发明人Ian Goodfellow在《Explaining and Harnessing Adversarial Examples》中提出了一种更快速方便的方法来产生对抗样本:

这种方法的思想非常简单,就是让输入图像朝着让类别置信度降低的方向上移动一个在各个维度上都是这么大小的一步。因为输入通常是高维的(比如224x224),再加上现在的主流神经网络结构都是ReLU系的激活函数,线性程度其实很高,所以即使是很小的,每个维度的效果加一块,通常也足以对结果产生很大的影响,比如下面这样:

在计算上,这种方法优势巨大,因为只需要一次前向和一次后向梯度计算就可以了。Ian Goodfellow称之为Fast Gradient Sign method。

用Caffe生成对抗样本

FGS法因为非常简单,用任何框架都很容易实现(Ian Goodfellow有个作为完整工具包的官方实现,基于TensorFlow:openai/cleverhans),这里给出Caffe的Python接口实现的例子。

首先需要准备要攻击的模型,这里我们用在ImageNet数据集上预训练好的SqueezeNet v1.0作为例子:

DeepScale/SqueezeNet

需要下载两个文件就够了:

deploy.prototxt

squeezenet_v1.0.caffemodel

因为需要进行后向计算,所以把deploy.prototxt下载后,第一件事是加入下面的一句:

force_backward: true

首先在Caffe中装载准备好的模型定义和参数文件,并初始化读取三通道彩色图片的transformer:

# model to attack
model_definition = ‘/path/to/deploy.prototxt‘
model_weights = ‘/path/to/squeezenet_v1.0.caffemodel‘
channel_means = numpy.array([104., 117., 123.])

# initialize net
net = caffe.Net(model_definition, model_weights, caffe.TEST)
n_channels, height, width = net.blobs[‘data‘].shape[-3:]
net.blobs[‘data‘].reshape(1, n_channels, height, width)

# initialize transformer
transformer = caffe.io.Transformer({‘data‘: net.blobs[‘data‘].data.shape})
transformer.set_transpose(‘data‘, (2, 0, 1))
transformer.set_mean(‘data‘, channel_means)
transformer.set_raw_scale(‘data‘, 255)
transformer.set_channel_swap(‘data‘, (2, 1, 0))

因为只是演示如何制作对抗样本,为了方便,每次只处理一张图片,接下来就是读取图片并进行前向计算类别置信度,和后向计算梯度,我们用下面的白色小土狗的照片作为输入:

代码如下:

# Load image & forward
img = caffe.io.load_image(‘little_white_dog.jpg‘)
transformed_img = transformer.preprocess(‘data‘, img)
net.blobs[‘data‘].data[0] = transformed_img
net.forward()

# Get predicted label index
pred = numpy.argmax(net.blobs[‘prob‘].data.flatten())

# Set gradient direction to reduce the current prediction
net.blobs[‘prob‘].diff[0][pred] = -1.

# Generate attack image with fast gradient sign method
diffs = net.backward()
diff_sign_mat = numpy.sign(diffs[‘data‘])
adversarial_noise = 1.0 * diff_sign_mat

这样用于叠加在原始图片上的对抗样本噪声就好了,在这个代码中,我们执行的是生成一个对抗样本降低当前模型预测类别的,其中每个像素在梯度方向上的前进幅度是一个像素。如果要生成一个对抗样本使模型预测图片为一个指定的类别,则需要把给梯度赋值的语句改成下面这句:

net.blobs[prob_blob].diff[0][label_index] = 1.

其中label_index是希望模型错误预测的类别。需要注意的是,用caffe.io.load_image读取的图片是一个值为0到1之间的ndarray,经过transformer的处理之后,得到的新的ndarray中每个像素的值会在0到255之间。另外得到的噪声往往不是最后结果,因为加入到原图片后还得考虑像素值是否会溢出,所以产生最后对抗样本图片的代码如下:

# clip exceeded values
attack_hwc = transformer.deprocess(data_blob, transformed_img + adversarial_noise[0])
attack_hwc[attack_hwc > 1] = 1.
attack_hwc[attack_hwc < 0] = 0.
attack_img = transformer.preprocess(data_blob, attack_hwc)

attack_img就是和Caffe的blob形状一致的对抗样本了,attack_hwc是维度按照图片高度,图片宽度,图片通道顺序的格式,可以用matplotlib直接可视化。

可视化和简单分析

为了方便分析,我们把产生对抗样本的过程打包到一个函数里:

def make_n_test_adversarial_example(
        img, net, transformer, epsilon,
        data_blob=‘data‘, prob_blob=‘prob‘,
        label_index=None, top_k=5):

    # Load image & forward
    transformed_img = transformer.preprocess(data_blob, img)
    net.blobs[data_blob].data[0] = transformed_img
    net.forward()
    probs = [x for x in enumerate(net.blobs[prob_blob].data.flatten())]
    num_classes = len(probs)
    sorted_probs = sorted(probs, key=itemgetter(1), reverse=True)
    top_preds = sorted_probs[:top_k]
    pred = sorted_probs[0][0]

    # if label_index is set,
    # generate a adversarial example toward the label,
    # else
    # reduce the probability of predicted label
    net.blobs[prob_blob].diff[...] = 0
    if type(label_index) is int and 0 <= label_index < num_classes:
        net.blobs[prob_blob].diff[0][label_index] = 1.
    else:
        net.blobs[prob_blob].diff[0][pred] = -1.

    # generate attack image with fast gradient sign method
    diffs = net.backward()
    diff_sign_mat = numpy.sign(diffs[data_blob])
    adversarial_noise = epsilon * diff_sign_mat

    # clip exceeded values
    attack_hwc = transformer.deprocess(data_blob, transformed_img + adversarial_noise[0])
    attack_hwc[attack_hwc > 1] = 1.
    attack_hwc[attack_hwc < 0] = 0.
    attack_img = transformer.preprocess(data_blob, attack_hwc)

    net.blobs[data_blob].data[0] = attack_img
    net.forward()
    probs = [x for x in enumerate(net.blobs[prob_blob].data.flatten())]
    sorted_probs = sorted(probs, key=itemgetter(1), reverse=True)
    top_attacked_preds = sorted_probs[:top_k]

    return attack_hwc, top_preds, top_attacked_preds

这个函数用caffe.io.load_image读取的ndarray作为输入图片,同时需要net和transformer,epsilon是噪声的幅度,label_index默认为None,此时产生的对抗样本减小当前预测的置信度。如果label_index设置为指定的类别,则产生的对抗样本会尝试增加模型预测为这个类别的置信度。最后函数返回可以被matplotlib直接可视化的对抗样本attack_hwc,模型对原始图片预测的top k类别和对应置信度top_preds,以及模型对对抗样本预测的top k类别和对应置信度top_attack_preds。

上面函数的结果可以用下面函数可视化:

def visualize_attack(title, original_img, attack_img, original_preds, attacked_preds, labels):
    pred = original_preds[0][0]
    attacked_pred = attacked_preds[0][0]
    k = len(original_preds)
    fig_name = ‘{}: {} to {}‘.format(title, labels[pred], labels[attacked_pred])

    pyplot.figure(fig_name)
    for img, plt0, plt1, preds in [
        (original_img, 231, 234, original_preds),
        (attack_img, 233, 236, attacked_preds)
    ]:
        pyplot.subplot(plt0)
        pyplot.axis(‘off‘)
        pyplot.imshow(img)
        ax = pyplot.subplot(plt1)
        pyplot.axis(‘off‘)
        ax.set_xlim([0, 2])
        bars = ax.barh(range(k-1, -1, -1), [x[1] for x in preds])
        for i, bar in enumerate(bars):
            x_loc = bar.get_x() + bar.get_width()
            y_loc = k - i - 1
            label = labels[preds[i][0]]
            ax.text(x_loc, y_loc, ‘{}: {:.2f}%‘.format(label, preds[i][1]*100))

    pyplot.subplot(232)
    pyplot.axis(‘off‘)
    noise = attack_img - original_img
    pyplot.imshow(255 * noise)

这段代码会同时显示原始图片及模型预测的类别和置信度,对抗样本图片及模型预测的类别和置信度,还有叠加在原始图片上的噪声。另外为了方便直观理解,需要输入每类别的名字,对于ImageNet的数据,可以下载Caffe自带的synset_words.txt,然后把里面的类别按顺序读取到一个列表里即可,下面例子中我们假设这个列表就是labels。

万事俱备,来看看效果,首先尝试用一个幅度为1的噪声降低模型预测的置信度:

attack_img, original_preds, attacked_preds =     make_n_test_adversarial_example(img, net, transformer, 1.0)
visualize_attack(‘example0‘, img, attack_img, original_preds, attacked_preds, labels)

得到结果如下:

因为中华田园犬并不在ImageNet的类别里,所以模型预测的结果是大白熊犬(Great Pyrenees),考虑到小土狗的毛色和外形,这个结果合理,说明SqueezeNet v1.0还是不错的。而经过了1个像素的噪音叠加后,模型预测结果变成了黄鼠狼(weasel)……

接下来试试生成让模型预测为指定类别的对抗样本,既然原始类别是大白熊犬,不妨试试直接预测为真的大白熊,也就是北极熊(ice bear):

attack_img, original_preds, attacked_preds =     make_n_test_adversarial_example(img, net, transformer, 1.0, label_index=296)
visualize_attack(‘example1‘, img, attack_img, original_preds, attacked_preds, labels)

从结果来看还是很不错的,而且是个非常高的置信度,不过黄鼠狼又排在了第二。无论是大白熊犬,北极熊还是黄鼠狼,都是哺乳动物,其实外形还是比较类似的,接下来试个难一点的,尝试用幅度为1的噪声把小白狗预测为鸵鸟(ostrich),代码就是把上段代码的label_index换掉,就不再贴了:

仍然是黄鼠狼,所以尝试用更强的噪声,把噪声幅度设为2.0:

成功了,虽然置信度并不是很高,进一步提升噪声幅度到6.0:

预测为鸵鸟的置信度大幅提升!那么是不是噪声幅度越大,预测为鸵鸟的置信度就越高呢,按照Ian的论文中的图(Fig. 4)似乎是这样的:

来试试把噪音幅度调到18.0:

变成蛤蟆了……Ian的论文中一个主要论点是,在现在流行的深度网络中,对抗样本存在的主因是因为模型的线性程度很高,佐证一个是上面出现过的论文中的fig. 4,还有就是对抗样本在不同模型之间可以泛化。不过为什么线性就是主因了?Ian似乎并没有给出量化的,特别令人信服的证据。事实上原文的fig 4只是在mnist上的一个图示,稍微复杂些的数据上线性程度已经有所减弱,比如Ian自己为kdnuggets写的文章Deep Learning Adversarial Examples - Clarifying Misconceptions中的配图:

究其本质,对抗样本的存在还是因为高维空间搜索是不可行的,在数据和模型永远无法触及的角落,对抗样本的出现是很自然的事情。虽然感觉上模型的线性程度,及相应的对输入空间的划分是对抗样本存在的主因,但归因于其他因素的对抗样本也未必是可以忽略的,比如小狗变蛤蟆的例子。

利用迭代更好地生成对抗样本

分类模型虽然没有距离这个概念,但类别间在输入空间上显然还是相似的类别会更近一些,通过上部分的例子也可以看到,狗变成熊或者黄鼠狼相对容易一些,变成鸵鸟就难一点了,变成其他更不相似的比如球拍(Racket)就会更难。我们把鸵鸟对抗样本的四个幅度(1.0, 2.0, 6.0, 18.0)也在生成球拍的对抗样本上试试,结果如下:

经历了黑足鼬(black-footed ferret)、黄鼠狼、丁鲷(tench),最后又变成了蛤蟆。说明线性大法对于这个和小狗差异很大的球拍并不灵。事实上如果用单纯的FGS在很多情况下造对抗样本都是不灵的,也许是因为两个类别差异过大;也许是某个类别类内差异性过大(比如把所ImageNet中所有狗算一类,其他算一类的二分类);甚至最极端的某个类别可能处在ReLU都小于0的“Dead Zone”内。只考虑前两种情况的话,需要比FGS更好更实用的方法。既然FGS直接前进一大步可能是错的,很自然的一个想法是借鉴梯度下降的思路,一步步迭代前进。虽然这样很不线性,而且还要多次计算,不过比起L-BFGS法还是要简单,而且效果拔群。Ian Goodfellow在ICLR 2017的论文《Adversarial Examples in The Physical World》中描述了这种方法,并进一步细分为两种:1)减小预测为原始类别的置信度;2)增大原来被预测为最小可能类别的置信度。

基于这个思路,我们把第二种方法变通一下,尝试用迭代法增大球拍的置信度,每次迭代0.1,迭代十次:

attack_img, original_preds, attacked_preds =     make_n_test_adversarial_example(img, net, transformer, 0.1, label_index=752)
for i in range(9):
    attack_img, _, attacked_preds =         make_n_test_adversarial_example(attack_img, net, transformer, 0.1, label_index=752)
visualize_attack(‘racket_try1‘.format(i), img, attack_img, original_preds, attacked_preds, labels)

需要注意外部调用进行迭代的写法效率是不高的,好处是简单,迭代完的结果如下:

成功得到了球拍。

时间: 2024-10-05 10:14:03

用Caffe生成对抗样本的相关文章

5 12种生成对抗样本的方法

1 Box-constrained L-BFGS Szegedy[22] 等人首次证明了可以通过对图像添加小量的人类察觉不到的扰动误导神经网络做出误分类.他们首先尝试求解让神经网络做出误分类的最小扰动的方程.但由于问题的复杂度太高,他们转而求解简化后的问题,即寻找最小的损失函数添加项,使得神经网络做出误分类,这就将问题转化成了凸优化过程. 2 Fast Gradient Sign Method (FGSM) Szegedy 等人发现可以通过对抗训练提高深度神经网络的鲁棒性,从而提升防御对抗样本攻

走进生成对抗式网络(GAN)摘记

自从OpenAI的Ian J.Goodfellow大神发的开创性文章GAN以后,GAN的发展是膨胀式的,工业界的各个大牛也随之加入GAN蓬勃发展的大军中.除了OpenAI之外,工业界好多公司都参与到了GAN的研究中,包括了Facebook.Google.Apple等公司.其中一个发表比较的多的就是Facebook的Soumith Chintala,他参与发表了DCGAN.LPGAN.WGAN以及SSGAN,其中WGAN也是得到了大量的关注,该文详细的对GAN的缺陷进行了深入解析,然后提出了具有里

生成对抗网络 Generative Adversarial Networks

转自:https://zhuanlan.zhihu.com/p/26499443 生成对抗网络GAN是由蒙特利尔大学Ian Goodfellow教授和他的学生在2014年提出的机器学习架构. 要全面理解生成对抗网络,首先要理解的概念是监督式学习和非监督式学习.监督式学习是指基于大量带有标签的训练集与测试集的机器学习过程,比如监督式图片分类器需要一系列图片和对应的标签("猫","狗"-),而非监督式学习则不需要这么多额外的工作,它们可以自己从错误中进行学习,并降低未来

生成对抗式网络

本报告总结了 NIPS 上 Ian Goodfellow 的 生成式对抗网络课程.其内容有:(1)为何生成式建模是值得学习的话题:(2)生成式模型如何工作,GAN 与其他生成式模型的比较:(3)GAN 工作原理:(4)GAN 的研究前沿:(5)将 GAN 和其他方法组合的当前最优的图像模型.最后给出帮助读者学习的三个练习和相应的解答. 引言 本报告总结了 NIPS2016 上的生成对抗网络的课程.回答了很多之前的听众提出来的大多数问题,并尽可能地确保它对大家有用.当然,它不能算是 GAN 这个领

知物由学 | AI网络安全实战:生成对抗网络

"知物由学"是网易云易盾打造的一个品牌栏目,词语出自汉·王充<论衡·实知>.人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道."知物由学"希望通过一篇篇技术干货.趋势解读.人物思考和沉淀给你带来收获的同时,也希望打开你的眼界,成就不一样的你. 以下是正文: 作者:Brad Harris,安全研究员,Brad曾在公共和私营部门的网络和计算机安全领域工作过.他已经完成了从渗透测试到逆向工程到应用研究的所有工作,目前他是IBMX-Fo

NLP中的对抗样本

自然语言处理方面的研究在近几年取得了惊人的进步,深度神经网络模型已经取代了许多传统的方法.但是,当前提出的许多自然语言处理模型并不能够反映文本的多样特征.因此,许多研究者认为应该开辟新的研究方法,特别是利用近几年较为流行的对抗样本生成和防御的相关研究方法. 使用对抗样本生成和防御的自然语言处理研究可以基本概括为以下三种:1. 用未察觉的扰动迷惑模型,并评价模型在这种情况下的表现:2. 有意的改变深度神经网络的输出:3. 检测深度神经网络是否过于敏感或过于稳定,并寻找防御攻击的方法. Jia 和

《生成对抗网络GAN的原理与应用专题》笔记

视频教程的链接:http://campus.swarma.org/gpac=8 一.什么是GAN 框架简述 GAN全称是Generative Adversarial Nets,中文叫做"生成对抗网络". 在GAN中有2个网络,一个网络用于生成数据,叫做"生成器".另一个网络用于判别生成数据是否接近于真实,叫做"判别器". 下图展示了最简单的GAN的结构以及工作原理. 模型中最左侧的随机向量是为了让生成器产生不同的输出,而增加的扰动项.这些扰动决定

深度学习之对抗样本问题

深度学习之对抗样本问题 2006 年,Geoffrey Hinton 提出了深度学习.受益于大数据的出现和大规模计算能力的提升,深度学习已然成为最活跃的计算机研究领域之一.深度学习的多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力.最近几年,深度学习的发展也带动了一系列的研究.尤其是在图像识别领域,在一些标准测试集上的试验表明,深度模型的识别能力已经可以达到人类的水平.但是,人们还是会产生一个疑问,对于一个非正常的输入,深度模型是否依然能够产生满意的结果.的确,最近有研究者开始关注

让Caffe生成的数据集能在Theano上直接运行(一)——lmdb与protobuf

不论使用何种框架进行CNNs训练,共有3种数据集: Training Set用于训练网络. Validation Set用于训练时测试网络准确率. Test Set用于测试网络训练完成后的最终正确率. Caffe生成的数据分为2种格式:Lmdb和Leveldb. 它们都是键/值对(Key/Value Pair)嵌入式数据库管理系统编程库. 虽然lmdb的内存消耗是leveldb的1.1倍,但是lmdb的速度比leveldb快10%至15%,更重要的是lmdb允许多种训练模型同时读取同一组数据集.