With Friends Like These, Who Needs Adversaries ?

摘要

  用于图像分类的深度网络面对对抗性攻击的脆弱性已经众所周知,但人们对其的了解还不够深入。通过新颖的实验分析,作者说明了用于图像分类的深度卷积网络的一些事实,这些事实揭示了它们的分类行为和分类行为如何与对抗的问题联系在一起的。简而言之,这些网络的卓越表现和它们面对对抗性攻击的脆弱性是同一枚硬币的两面:网络面对对抗性攻击最脆弱的输入图像空间方向与网络首先用来实现其分类性能的方向相同。作者通过两个主要的步骤得出这个结果。首先是揭示类别倾向于和特定的图像空间方向关联的事实。这是通过检查网络的类得分输出作为沿着这些方向一维运动的函数来显示的。这为通用对抗性扰动的存在提供了一种新颖的视角。第二步是清楚地证明在跨越这些方向的空间内分类性能和面对对抗性攻击的脆弱性之间的紧密联系。因此,作者的分析解决了准确性和脆弱性之间的明显矛盾。它为许多现有技术提供了新的视角,并揭示了构建对对抗攻击的具有准确性和鲁棒性的网络的深远影响。
  论文地址

介绍

  那些深度网络发现它们必须面对一个显然的悖论。一方面,这些网络在训练集上学习类别判定并似乎能很好的泛化到从未见过的数据,被证明是成功的。另一方面,这些同样的网络面对对抗性扰动时很脆弱,在类别预测时会发生急剧的变化,尽管对抗性扰动是反直觉的或是人眼不可感知的。对这个问题的一个共同理解如下所述:“虽然深度网络已经证明了它们能够在它们的目标类别之间做出很好区分以便对没见过的自然变化进行推广,但它们奇怪地都拥有一个必须得到保卫的致命弱点”。实际上,制造攻击和抵制网络防御的努力导致了一场专门的竞争,相关的一系列文献已经过于庞大而无法总结。
  在目前的工作中,作者试图从根本上揭开这一现象的神秘面纱。作者基于他们之前关于几何决策边界分析的工作[2],将其重新阐述并扩展为一个框架,作者相信这个框架关于用于图像分类的深度卷积网络(DCNs)上述的悖论行为更简单并且更有启发性。通过一系列相当简单的实验和解释,作者阐释了对抗样本表示的是什么,现代的DCNs做了什么和没有做什么。通过这样,作者将专注于对抗本身的工作和其他寻求描述网络学习到的特征空间的工作结合在一起。
  让$\hat{i}$表示输入图片的向量,$\overline{i}$表示给定的数据集的平均图片向量。这样,数据集的均值标准化版本$\Pi = \{i_i, i_2,…i_N\}$,第$N^{th}$个图像$i_n = \hat{i}_n - \overline{i}$。定义图像$i_n$在方向$d_j$上的扰动为:$\widetilde{i}_n \leftarrow i_n + s \hat{d}_j$,$s$是一个扰动比例因子,$\hat{d}_j$是方向$d_j$上的单位规范向量。一张图像经过神经网络,神经网络的参数为$\theta$,对特定类$c$的输出分数为$\mathcal{F}_c(\widetilde{i}|\theta)$。这个类得分函数可以重写为$\mathcal{F}_c(i_n+s\hat{d}_j|\theta)$,可以等价得记为$\mathcal{\widetilde{F}}_c(s|i_n,d_j,\theta)$。作者
在不同的分类DCNs上从随机选取的自然图像$i_n$开始,考察了$\mathcal{\widetilde{F}}_c$作为$s$在图像空间特定方向运动的函数的性质。通过这个新颖的分析,作者发现了这些函数三条值得注意的观察结果,这些观察结果直接与这些网络中的对抗性脆弱现象有关,所有这些都在图1中展示。现在来更详细地讨论这些观察结果。

alt text

  在开始之前,先说明这些方向$d_j$都是通过后面介绍的方法获得的。在图片1,作者针对’frog’类,研究了两个方向:所有其他类都存在这样的方向。首先,请注意作为$s$的函数的相应类$c$(这里是’frog’类)的得分通常关于某些点$s_0$近似对称,i.e. $\mathcal{\widetilde{F}}_c(s-s_0|i_n,d_j,\theta) \approx \mathcal{\widetilde{F}}_c(-s-s_0|i_n,d_j,\theta)$,并且两边都是单调的。这意味着简单地增加输入图像和单个方向之间的相关的幅度,导致网络相信更多或更少类$c$的存在。换句话说,在图像空间的某一方向上,可让所有图像里类$c$更近或者更远。在前一种情况中,该方向代表了特定于类的通用对抗扰动(UAP)。第二,让$i^d = i \cdot \hat{d}$,令$i^{d \perp}$代表$i$在空间中正交于$\hat{d}$的投影,这样$i^{d \perp} = i-i^d \cdot \hat{d}$。于是,作者的结果表明存在一个基础的包含$\hat{d}$的图像空间,使得类别得分函数近似可加性地分离,i.e.$\mathcal{F}_c(i|\theta) = \mathcal{F}_c([i^d, i^{d\perp}]|\theta) \approx \mathcal{G}(i^d) + \mathcal{H}(i^{d\perp})$。这意味着所研究的方向可以用来几乎彼此独立地改变网络的预测。然而,如图1所示,尽管有这些事实,这些方向的2D可视化揭示了低级结构缺乏与类关联的清晰的语义连接(比如,$d_1$和’frog’相关联,但其可视化结果看起来没有一点像青蛙)。所以,作者证明了不像DCNs通常被认为的那样,它们学习到的函数编码的是更简单的类标志概念,尽管在一定程度上可以泛化到测试集分布。这和人类视觉系统利用这些数据维度的方式不同:“对抗脆弱性”只是给予这种差异和由此产生的现象的名称,通用对抗性扰动是这一事实的一个特别直接的例子。
  最后作者展示了网络的分类表现和对抗脆弱性和它们利用以上的方向的方式有着千丝万缕的关系,尽管网络架构多样。所以,通过抑制网络对这些方向上的成分的响应来改善鲁棒性,就会损失网络的分类准确性。DCNs现在用来解决分类问题的特征和函数,在某种意义上,就是它们自己最差劲的对手。

相关工作

Fundamental developments in attack methods

  Szegedy提出了对抗性样本(adversarial example)这一术语,演示使用盒约束L-BFGS来估计加到输入图像上的最小$\ell_2$范数的扰动,令输入图像的预测标签变为目标类,同时结果图像保持在强度范围内。引人注目的是,对于每个测试的网络,他们在每个点都找到了一个小范数(不易察觉)的扰动。更进一步,由此产生的对抗样本,可以欺骗不同训练产生的网络,即使是使用不同的数据子集来训练。Goodfellow接着提出了fast gradient sign method(FGSM),计算损失函数的梯度,并在其符号方向上以固定大小的步长进行扰动,证明了局部线性假设在产生同样结果的有效性。DeepFool method保留了FGSM的一阶框架,但是对其做了修改,这样对给定的自然图片,可以找到改变其类标签到除自身类之外的其他类标签的最小范数的扰动。尽管需要重复尝试以一个很小的幅度跨越最近的决策边界,这种方法记录的成功的扰动的范数比FSGM的更小。Moosavi-Dezffli & Fawzi等人提出了一种DeepFool扰动的迭代聚合,这样可以产生通用对抗扰动:单张图片,对于目标网络,可以作为整个数据集的大部分的对抗。尽管这些扰动比单个DeepFools要大的多,它们与人类的感知不符,表明有固定的图像空间方向网络很容易受到欺骗,而与它们所使用的图像空间位置无关。它们还展示了对网络架构的泛化性。
   Sabour & Cao提出了上述问题的一个有趣的变体:不做”label adversaries”,转而做“feature adversaries”,令其在选定网络的特征空间中到特定的指引图像的距离最小(很明显指引图像相当于对抗的ground-trut,简单来说,希望对抗朝着指引图像的方向逼近),受限于到源图像的$\ell_\infty$-norm的图像空间距离。尽管存在这种限制,但是对抗性图像模仿指引图像非常接近:它不仅几乎总是被赋予指引图像的类别,而且它似乎是所选特征空间中指引类分布的一个内部因素。最后,尽管对抗最后,虽然“对抗”被认为是小扰动应用于自然图像,得到的图像仍然可以被人类识别,但 Nguyen的欺骗图片却完全不能被人类识别,却能够被深度网络自信地预测为特定类。这样地图片可以用进化算法和梯度下降对像素改变轻易地获得。

Analysis of adversarial vulnerability and proposed defences

  Wang等人提出了一种命名法和理论框架,用以讨论对任何实际网络或者攻击都是不可知的抽象的对抗脆弱性问题。他们标记了一个用于判断的”圣人”,其鲁棒性和准确信必须可以评估,并说明如果分类器学会使用与“圣人”(理想分类器)完全相同的特征空间,那么相对于“圣人”,分类器只能是准确且鲁棒的(面对攻击很健壮)。不然,网络在其特征空间与”圣人”的特征空间分离的方向上面对对抗攻击是很脆弱。基于这种假设,网络的特征空间包含了一些虚假的方向,Gao等人提出抑制神经元激活的的减法方案,抑制的神经元是在自然输入和对抗输入间变化明显的。值得注意的是,这种提高鲁棒性的方法是以准确度的降低为代价的。网络特征抑制的替代方案是对所研究的输入图像数据的压缩。
  Goodfellow假设深层网络的高维度性和过多的线性解释了网络的脆弱性。 Tanay & Griffin首先通过说明toy problems来解决上述问题。然后他们进一步提出一种基于分离边界和数据流行的交叉角度的解释,该数据流行依赖于过拟合并要求有效的正则化,他们注意到这种数据流行即未被解决也不知道能不能用深度网络解决。一些基于训练的方法被提出来用以解决上述的假设。Hardening methods探索使用对抗样本训练得到更鲁棒的深度网络。基于检测的方法视对抗样本为训练数据分布的异常值,并训练检测器在网络的中间特征空间中识别它们。此外,例如Zhang等人的数据增强方案,其中输入图像的突组合被映射到它们标签的凸组合,试图让网络能够学习到更平滑的决策边界。虽然他们的方法改进了对单步梯度符号攻击的抵抗力,但它对相同类型的迭代攻击不再具有鲁棒性。
  在一些工作中[2,22,23,24],作者建立了深度网络决策边界几何形状的图像空间分析,及其与对抗性脆弱的联系。在[23]中,他们注意到[9]的DeepFool扰动倾向于表明由高曲率的决策边界中的方向所跨越的子空间中有相对较高的分量。此外,*DeepFooled image附近的决策边界的平均曲率的符号相对于相应的自然图像的符号是相反的,这为识别和撤销攻击提供了一种简单方案。他们得出结论,大多的图像空间方向对应于决策边界的近平坦度,并且对攻击不敏感,但沿着剩余的方向,即具有显著曲率的方向,网络确实是脆弱的。此外,观察到所讨论的方向在样本图像上是共享的。他们在[2]中说明了为什么理论上具有这种性质的假设网络面对通用对抗是脆弱的,并注意到分析表明这种对抗可以替代原始的随机迭代方法[4]:它们可以被构造为共享高曲率维度的子空间中的随机向量。

Method

  这类分析从[2]开始,提取分类器的图像空间类决策边界的主要方向和主要曲率。简而言之,一个主要方向和与之相关联的主要曲率可以告诉我们从一个特定点出发,沿着一个特定的方向,曲面的弯曲程度。现在,需要许多决策边界来表征多类网络的分类行为:$({ C \atop 2})$,对于$c$类分类器来说。但是,为了理解利于将某类和其他类区分开来的决策边界的性质,只需要分析$C$个$1-vs-all$的决策边界就够了。因此,对每一类$c$而言,该方法定位非常接近决策边界的样本。实际上,对每一个样本,这对应于$c$和其最近的相邻类$\widetilde{c}$之间的决策边界这决策边界是通过从后者到前者的样本进行扰动得到的。接着,决策边界的几何形状通过Alg.1测算得到,该算法和[2]中的方法很接近。

alt text

  [2]的作者提出了一个假设,将正向弯曲的方向和[4]的通用对抗扰动联系起来。从本质上讲,他们证明了如果网络的决策表面的沿着给定方向的常见部分,可以被样本图像点附近的特定正曲率的圆弧局部的界定,然后几何形状相应的指示该点与该方向上的边界之间的距离的上限。如果这样的方向和界限在样本图像点之间变得非常普遍,则表明有通用对抗的存在,较高的曲率意味着较低范数的对抗。

Conclusion

  在这项工作中,作者揭示了一系列方向,给定网络的类别得分输出函数在这些方向上展示了在样本图像之间惊人的相似性。这些函数是非线性的,但是是相对受约束的形式:大致轴对称 并且大范围内通常是单调的。作者说明了这些方向和类别一致性之间的紧密关系:许多此类方向有效地编码了网络认为特定目标类别存在或不存在的程度。因此,就目前而言,所研究的网络的预测能力和对抗性脆弱性是相互交织的,因为它们的分类决策基于对特定方向上输入图像的组成部分的相当简单的响应,而不管这些组成部分的来源如何,是自然的还是对抗的。显然,通过抑制网络对这些成份的响应而获得的任何稳健性增益必须以相应的精度损失为代价。作者通过实验证明了这一点 还注意到,这些稳健性增益可能低于它们的出现,因为网络实际上仍然容易受到其继续使用的其余方向的适当设计的攻击。总而言之,作者认为,对于任何能够真正有效抵御对抗性脆弱问题的方案,它必须在根本上使用比现在的特征恒具有洞察力的特征。在那之前,目前这些特征将继续成为网络自身最糟糕的对抗。

反思

  这篇文章使用的方法很复杂,具体的方法都在[2]中。这篇论文主要的观点是:分类网络学习到的特征比较简单,虽然令其高效地分类,但这些简单的特征导致分类网络的鲁棒性不够好。这篇论文对于目前的我来说很有难度,翻译的也不好,比如方向(directions)和对抗(adversaries),我找不到合适的词。另外本论文的精彩部分在于实验分析,这一块我没有翻译,及时止损,其实我觉得这篇论文对于我而言看看结论就好了。下次第一次接触一个领域的时候,我应该先看看中文文献,熟悉一下术语再去看英文文献。

参考文献

[2] Moosavi-Dezfooli, S.M., Fawzi, A., Fawzi, O., Frossard, P., Soatto, S.: Robustness of classifiers to
universal perturbations: A geometric perspective. In: International Conference on Learning Representations.
(2018)
[4] Moosavi-Dezfooli, S.M., Fawzi, A., Fawzi, O., Frossard, P.: Universal adversarial perturbations. In:
Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, IEEE (2017) 86–94
[22] Fawzi, A., Moosavi-Dezfooli, S.M., Frossard, P.: Robustness of classifiers: from adversarial to random
noise. In: Advances in Neural Information Processing Systems. (2016) 1632–1640
[23] Fawzi, A., Moosavi-Dezfooli, S.M., Frossard, P., Soatto, S.: Classification regions of deep neural
networks. arXiv preprint arXiv:1705.09552 (2017)
[24] Fawzi, A., Moosavi-Dezfooli, S.M., Frossard, P.: The robustness of deep networks: A geometrical
perspective. IEEE Signal Processing Magazine 34(6) (2017) 50–62