《Adversarial Complementary Learning for Weakly Supervised Object Localization》笔记

简介

弱监督对象定位的对抗性互补学习

因为跟18的GAIN思想有些接近,都是采用了遮挡的方法,所以想看看有什么结合的地方。

参考:
论文阅读 Adversarial Complementary Learning forWeakly Supervised Object Localization

摘要

在这项研究中,我们提出对抗性互补学习(ACoL)在弱监督下自动定位语义兴趣的整体对象。我们首先在数学上证明了类定位图可以通过直接选择最后一个卷积层的特定于类的特征映射来获得,这为识别对象区域提供了一种简单的方法。然后,我们提出了一个简单的网络架构,包括两个用于对象定位的并行分类器。具体来说,我们利用一个分类分支在前向传递期间动态定位一些鉴别对象区域。虽然它通常响应目标对象的稀疏部分,但是该分类器可以通过从特征映射中擦除其发现的区域来驱动对应的分类器以发现新的和互补的对象区域。通过这种对抗性学习,两个并行分类器被迫利用互补对象区域进行分类,并最终可以一起生成整体对象定位。 ACoL的优点主要有两个方面:1)它可以以端到端的方式进行训练; 2)动态擦除使对应分类器能够更有效地发现互补对象区域。 我们在各种实验中证明了我们的ACoL方法的优越性。 特别是,ILSVRC数据集的Top-1定位错误率为45.14%,这是最新的技术水平。

引言

弱监督对象定位(WSOL)是指使用图像级标签在给定图像中学习对象位置。 目前,WSOL已经引起越来越多的关注,因为它不需要昂贵的标注边界框用于训练,因此与全监督的对应物相比可以节省大量人力[32, 13, 12]。

使用图像级监督来学习用于定位感兴趣对象的深度模型是一项非常具有挑战性的任务。已经提出了一些先驱研究 [48, 45],以根据预训练的卷积分类网络生成特定类别的定位图。例如,Zhou等人[48]修改了分类网络(例如,AlexNet [21]和VGG-16 [34]),通过全局平均池化层[23]和全连接层替换了一些高层,聚合最后一个卷积层的特征以生成用于定位目的的鉴别性类激活图(CAM)。然而,我们观察到这些解决方案中存在一些关键问题,主要包括:1)过度依赖类别判别特征进行图像分类; 2)未能在图像内密集地定位目标对象的整体区域。这两个问题主要是由于分类网络倾向于从最具鉴别力的部分识别模式以进行识别,这不可避免地导致第二个问题。例如,给定包含猫的图像,网络可以通过识别头部来识别它,而不管诸如身体和腿部的其余部分。

为了解决这些问题,Wei等人[39]提出了一种对抗性擦除(AE)方法,通过在其鉴别对象区域被部分擦除的图像上训练额外的分类网络来发现整体对象区域。 然而,AE的一个主要缺点是它需要训练几个独立的分类网络以获得整体对象区域,这需要更多的训练时间和计算资源。 最近,Singh等人[35] 通过随机隐藏输入图像的patch来增强CAM,以迫使网络寻找其他鉴别部分。 但是,在没有任何高级指导的情况下随机隐藏patch是低效的,并且不能保证网络总是发现新的对象区域。

在本文中,我们提出了一种新颖的对抗性互补学习(ACoL)方法,用于通过端到端的弱监督训练发现整个感兴趣的对象。 ACoL的关键思想是通过AE驱动的两个对抗分类器找到互补的对象区域[39]。特别地,首先利用一个分类器来识别最具鉴别力的区域并引导中间特征图上的擦除操作。然后,我们将擦除的特征提供给其对应的分类器,以发现新的和互补的对象相关区域。这种策略驱动两个分类器挖掘互补的对象区域,并最终根据需要获得整体对象定位。为了方便地进行ACoL的端到端训练,我们在数学上证明了可以通过直接从最后一个卷积层的类特定特征图中选择而不是在[48]中使用后推理方式来获得对象定位图。 因此,根据在线推断的对象定位图,可以在训练前向传播期间以方便的方式识别鉴别对象区域。

我们的方法比AE更具吸引力[39]。首先,AE独立训练三个网络进行对抗性擦除。 ACoL通过将两个对抗分支部分整合到一个网络中来联合训练两个对抗分支部分。提出的联合培训框架更能够整合两个分支机构之间的补充信息。其次,AE采用递归方法生成定位图,并且必须多次运行网络。 相反,我们的方法通过仅运行网络一次来生成定位地图。 这种优势大大提高了效率,使我们的方法更容易实现。 第三,AE直接采用CAM [48]生成定位图。 因此,AE分两步生成定位图。 不同的是,我们的方法通过选择与真实情况最匹配的特征地图作为定位图,一步生成定位图。 我们还提供了理论上严谨的详细证明,即我们的方法更简单,更有效,但产生的结果与CAM [48] 相同(见3.1节)。

图1:提出的ACoL方法的图示。 我们证明在前向传播过程中可以方便地获得物体定位图。 在此基础上,我们设计了并行对抗分类器结构,其中互补区域(头部和四肢)通过两个分类器(A和B)通过对抗性擦除特征图发现。 GAP是指全球平均池化层。

ACoL的过程如图1所示,其中处理图像以预测马的区域。 我们可以观察到,分类器A利用一些鉴别区域(马的头部和后腿)进行识别。 通过在特征图中擦除这些鉴别区域,引导分类器B使用新的和互补的对象区域(马的前肢)的特征进行分类。 最后,通过融合来自两个分支的对象定位图来获得整体目标区域。 为了验证所提出的ACoL的有效性,我们使用从生成的定位图推断的边界框进行一系列对象定位实验。

总而言之,我们的主要贡献有三方面:

  • 我们为前向传播期间生成类特定的特征图提供理论支持,以便可以方便地识别对象区域,这有利于未来的相关研究。
  • 我们提出了一种新颖的ACoL方法,通过弱监督方式的两个对抗分类器有效地挖掘不同的鉴别区域,这些方法发现了对象的整体目标区域以进行定位。
  • 这项工作在弱监督环境中实现了ILSVRC 2016数据集的错误率Top-1 45.14%和Top-5 30.03%的当前最新技术水平。

相关工作

全监督检测已经深入研究并取得了非凡的成功。 最早用于以一阶段方式检测对象的深度网络之一是OverFeat [32],它采用多尺度和滑动窗口方法来预测对象边界。 然后应用这些边界来累积边界框。 SSD [25]和YOLO [28]使用类似的单阶段方法,它们专门用于加速检测。 Faster-RCNN [29]采用了一种新颖的两阶段方法,并在物体检测方面取得了巨大成功。 它使用滑动窗口生成候选区域,并实时预测统一网络中高度可靠的对象位置。 Lin等[24]提出通过构造具有边际额外成本的特征金字塔可以显着提高Faster-RCNN的性能。

弱监督检测和定位旨在通过仅使用图像级监督来应用另一种更便宜的方式 [2, 35, 1, 38, 29, 19, 10, 9, 18, 22, 26]。Oquab等人 [26]和Wei等人 [42]采用类似的策略来学习具有最大合并MIL的多标签分类网络。然后将网络应用于粗对象定位[26]。Bency等人 [2] 应用了一种波束搜索方法来利用局部空间模式,逐步定位候选边界框。Singh等人 [35] 提出了一种通过随机隐藏patch来增加输入图像以寻找更多对象区域的方法。同样,Bazzani等人 [1] 通过随机屏蔽输入图像的区域来分析分类网络的分数,并提出了一种聚类技术来生成自学定位的假设。 Deselaers等人 [7] 使用具有可用标注位置的额外图像来学习对象特征,然后应用条件随机域来一般地将通用知识适应特定的检测任务。

弱监督分割应用类似的技术来预测像素级标签 [40, 41, 39, 16, 20, 27, 43]。 Wei等人[40]利用简单场景的额外图像,并提出了一种简单到复杂的方法来逐步学习更好的像素注释。 Kolesnikov等[20]提出SEC将三种损失函数(即种子,扩展和边界约束)整合到一个统一的框架中,以学习分割网络。 Wei等[39]提出了与我们类似的想法,以找到更多的鉴别区域,他们在后处理步骤中训练额外的独立网络,以便在预训练网络的帮助下生成特定类别的激活图。

对抗性互补学习

在本节中,我们将描述针对WSOL提议的对抗性互补学习(ACoL)方法的详细信息。 我们首先重新审视CAM [48] 并介绍一种更方便的方法来生成定位地图。 然后,基于上述发现建立的ACoL的细节被呈现用于挖掘高质量对象定位图和定位整体对象区域。

重新审视CAM

对象定位图已被广泛应用于许多任务 [26, 40, 1, 45] ,提供了一种有前景的方法来可视化深度神经网络关注识别的位置。 Zhou等[48]提出了一种两步法,它可以通过将最后一个全连接层的权重乘以分类网络中的特征图来生成对象定位图。

假设给出一个全卷积网络(FCN),最后的卷积特征图表示为$S\in \mathbb{R}^{H×H×K}$,其中$H×H$是空间大小,$K$是信道数。在[48]中,特征图被传送到全局平均池化层(GAP)[23],然后是全连接层。 在顶部施加softmax层用于分类。 我们将第$k$个特征图的平均值表示为 $s_k=\frac{\sum_{i,j}(S_k)_{i,j}}{H×H}$,$k=0,1,…,K-1$,其中$(S_k)_{i,j}$是第$i$行和第$j$列的第$k$个特征映射$S_k$的元素。全连接层的权重矩阵表示为 $W^{fc}\in \mathbb{R}^{K×C}$,其中$C$是目标类的数量。 在这里,为方便起见,我们忽略了偏置。 因此,对于目标类$c$,可以将第$c$个softmax节点$y_c^{f_c}$的输入定义为

其中$W_{k,c}^{f_c} \in \mathbb{R}$表示第$k$行和第$c$列的矩阵$W^{f_c}$的元素。行$W_{k,c}^{f_c}$,$k=0,1,…,K-1$有助于计算$y_c^{f_c}$值。因此,[48]中提出的$c$类对象定位图$A_c^{f_c}$可以通过如下聚合特征图$S$来获得,

CAM提供了一种检查和定位目标对象区域的有效方法,但在向前传播之后需要额外的步骤来生成对象定位图。在这项工作中,我们揭示了可以通过直接从最后一个卷积层的特征图中选择来方便地获得对象定位图。最近,一些方法[17,14]已经获得了这样的定位图,但是我们首先证明这种方便的方法可以用CAM生成相同质量的定位图,这是有意义的并且有助于将定位图嵌入到复杂的网络中。在下文中,我们提供理论证明和可视化比较以支持我们的发现。给定FCN的输出特征映射$S$,我们添加一个$C$通道的卷积层,其内核大小为$1×1$,在特征映射$S$的顶部的步幅为$1$。然后,输出被馈送到GAP层,然后是softmax层用于分类。假设$1×1$卷积层的权重矩阵是$W^{conv} \in \mathbb{R}^{K×C}$。我们定义了$A_c^{conv}$,$c=0,1,…,C-1$作为$1×1$卷积层的定位映射,$A_c^{conv}$的输出特征映射可以被下式计算:

其中$W_{k,c}^{conv}$表示第$k$行和第$c$列的矩阵$W^{conv}$的元素。因此,softmax层的第$c$个输入值$y_c^{conv}$是$A_c^{conv}$的平均值。 所以,$y_c^{conv}$可以通过计算得出,

据观察,如果我们以相同的方式初始化两个网络的参数,则$y_c^{f_c}$和$y_c^{conv}$是相等的。 此外,$A_c^{f_c}$和$A_c^{conv}$具有相同的数学形式。 因此,在网络收敛后,我们得到相同质量的对象定位图$A_c^{f_c}$和$A_c^{conv}$。在实践中,来自两种方法的对象定位图非常相似,并且突出显示由随机优化过程引起的一些边际差异的相同目标区域。图2比较了CAM生成的对象定位图和我们修改的方法。 我们观察到这两种方法可以生成相同质量的地图并突出显示给定图像中的相同区域。 但是,使用我们修改的方法,可以在前向传播中直接获得对象定位图,而不是在CAM中提出的后处理步骤。


图2:生成定位映射的方法比较。 我们的方法可以生成与CAM [48] 相同质量的映射,但是更方便。

提出的ACoL

3.1节中的数学证明为所提出的ACoL提供了理论支持。 我们确定深度分类网络通常利用特定类别的独特模式进行识别,并且生成的对象定位图只能突出显示目标对象的小区域而不是整个对象。 我们提出的ACoL旨在通过对抗性学习方式发现整体对象区域。 特别地,它包括两个分类器,其可以挖掘给定图像中的目标对象的不同但互补的区域。

图3显示了所提出的ACoL的架构,包括三个组件,骨干,分类器A和分类器B。骨干是一个全卷积网络,充当特征提取器,它将原始RGB图像作为输入并生成多通道的高级位置感知特征映射。然后将来自骨干的特征映射馈送到以下并行分类分支。可以如3.1节所述方便地获得每个分类器的对象定位图。两个分支由相同数量的卷积层组成,接着是GAP层和用于分类的softmax层。两个分类器的输入特征图是不同的。特别地,分类器B的输入特征在分类器A产生的挖掘的鉴别区域的引导下被擦除。我们通过在分类器A的定位图上进行阈值来识别鉴别区域。输入特征映射中的相应区域用于然后通过用零替换值以对抗方式擦除分类器B。这样的操作鼓励分类器B利用来自目标对象的其他区域的特征来支持图像级标签。最后,通过组合两个分支产生的定位图,可以获得目标对象的整体定位图。


图3:提出的ACoL方法概述。 输入图像由骨干处理以提取中级特征图,然后将其馈送到两个并行分类器中以发现互补对象区域。 每个分类器由几个卷积层组成,后跟全局平均池化层(GAP)和softmax层。 与分类器A不同,分类器B的输入特征图在分类器A的对象定位图的引导下被擦除。最后,来自两个分类器的对象图被融合用于定位。

形式上,我们将训练图像集合表示为$I=\{(I_i,y_i)\}_{i=0}^{N-1}$,其中$y_i$是图像$I_i$的标签,$N$是图像的数量。 输入图像$I_i$首先通过骨干$f(\theta_0)$变换为具有$K$个通道和$H_1×H_1$分辨率的空间特征图$S \in \mathbb{R}^{H_1×H_1×K}$。 我们使用$θ$来表示CNN的可学习参数。分类器A表示为$f(θ_A)$,其可以以弱监督方式给出输入特征映射$S$,生成大小为$H_2×H_2$的对象映射$M^A \in \mathbb{R}^{H_2×H_2}$,如3.1节中所述。$M^A$通常会突出显示目标类别的唯一鉴别区域。

我们将最具鉴别性的区域识别为在对象定位图中其值大于给定阈值$δ$的像素集。如果$H_1 \neq H_2$,则通过线性插值将$M^A$调整为$H_1×H_1$。我们根据挖掘的鉴别区域擦除$S$中的鉴别区域。设$\tilde S$表示擦除的特征图,其可以通过用零替换所识别的判别区域的像素值来生成。 分类器B $f(θ_B)$ 可以用输入$\tilde S$生成物体定位图$M^B \in \mathbb{R}^{H_2×H_2}$。 然后,可以通过反向传播来更新网络的参数$θ$。 最后,我们可以通过合并两个映射$M^A$和$M^B$来获得类$c$的完整对象映射。具体地说,我们将两个映射规范化为范围 $[0, 1]$ 并将它们表示为$\overline M^A$和$\overline M^B$。 融合对象定位图$\overline M^{fuse}$由$\overline M_{i,j}^{fuse}=max(\overline M_{i,j}^A, \overline M_{i,j}^B)$计算,其中$\overline M_{i,j}$是归一化映射$\overline M$的元素在第$i$行和第$j$列。 整个过程以端到端的方式进行训练。 两种分类器都采用交叉熵损失函数进行训练。 算法1说明了所提出的ACoL方法的训练过程。

在测试期间,我们根据预测的类提取融合的对象图,并通过线性插值将它们调整为与原始图像相同的大小。 为了公平比较,我们应用[48]中详述的相同策略,根据生成的对象定位图生成对象边界框。 特别是,我们首先按固定阈值对前景和背景进行分段。 然后,我们寻找覆盖前景像素中最大连通区域的紧密边界框。 有关详细信息,请参阅[48]。

实验

实验设置

数据集和评价指标
我们评估了ACoL在两个数据集上的分类和定位精度,即ILSVRC 2016 [6, 31] 和CUB-200-2011 [37]。 ILSVRC 16包含120万张用于训练的1000个类别的图像。 我们将我们的方法与具有50,000张图像的验证集上的其他方法进行比较。 CUB-200-2011 [37]有 11788 张 200 个类别的图像,其中5994张用于训练,5794张用于测试。 我们利用[31]建议的定位度量进行比较。 度量标准计算边界框具有超过50%IoU的图像与真实状况的百分比。 此外,我们还在Caltech-256 [14]上实现了我们的方法,以可视化定位整体目标对象的出色性能。

实验细节
我们使用VGGnet [34]和GoogLeNet [36]评估提出的ACoL。特别是,我们删除了VGG-16网络的conv5-3之后的层(从pool5到prob)以及GoogLeNet的最后一个Inception Block。然后,我们添加两个内核大小为3×3,步幅为1,间隔为1,带有1024个单元的卷积层,和一个内核大小为1×1,步幅为1,间隔为1,带有1000个单元的卷积层(CUB-200-2011的是200个单元,Caltech-256的是256个单元)。作为3.1节中的证明,可以从1×1卷积层的特征图中方便地获得定位图。最后,在卷积层的顶部添加GAP层和softmax层。两个网络都在ILSVRC的预训练权重上进行了微调[31]。在将尺寸调整为256×256像素后,输入图像被随机裁剪为224×224像素。我们测试不同的擦除阈值$δ$从0.5到0.9。在测试中,阈值$δ$保持恒定,即在训练时的值。对于分类结果,我们将softmax层的得分平均为10个输出(4个角加中心,水平翻转相同)。我们使用12GB内存在NVIDIA GeForce TITAN X GPU上训练网络。

与现有方法进行比较

分类
表1显示了ILSVRC验证集的Top-1和Top-5错误。 我们提出的方法GoogLeNet-ACoL和VGGnet-ACoL分别比GoogLeNet-GAP和VGGnet-GAP获得了更好的分类结果,并且与原来的GoogLeNet和VGGnet相当。 对于细粒度识别数据集CUB-200-2011,它也实现了卓越的性能。 表2总结了使用或不使用(w / o)标注的边界框进行分类的基准方法。 我们发现我们的VGGnet-ACoL在不使用边界框的情况下在所有方法中实现了28.1%的最低误差。


表1:ILSVRC验证集的分类错误。


表2:细粒度CUB-200-2011测试集的分类错误。

总而言之,所提出的方法可以使网络实现与原始网络的等效分类性能,尽管我们的修改的网络实际上不使用全连接层。 我们将其归因于擦除操作,该操作引导网络发现更多的鉴别模式以获得更好的分类性能。

定位
表3说明了ILSVRC验证集的定位误差。 我们观察到我们的ACoL方法优于所有基准。VGGnet-ACoL明显优于VGGnet-GAP,GoogLeNet ACoL也比GoogLeNet-HaS-32实现了更好的性能,后者采用随机擦除输入图像的策略。 我们在表4中说明了CUB-200-2011数据集的定位性能。我们的方法在Top-1错误中的表现优于GoogLeNet-GAP 4.92%。


表3:ILSVRC验证集的定位错误(*表示仅使用具有高分的预测来改善 top-5 性能的方法)。


表4:CUB-200-2011测试集的定位错误。

我们通过将我们的定位结果与最新的分类结果(即ResNet [15] 和DPN [5] )相结合来进一步提高定位性能,以在计算计算精度时打破分类的限制。 如表5所示,随着分类结果的改善,定位精度不断提高。 应用从集合DPN生成的分类结果时,我们在Top-1错误中达到了45.14%,在Top-5错误中达到了38.45%。 此外,我们通过仅选择前三个预测类别的边界框 [48] 来提升 Top-5 定位性能(由*表示),而VGGnet-ACoL-DPN-ensemble*在ILSVRC上达到30.03%。


表5:ILSVRC验证集的定位/分类错误以及最先进的分类结果。

图4显示了所提方法和CAM方法的定位边界框[48]。 由ACoL生成的对象定位图可以覆盖更大的对象区域以获得更准确的边界框。 例如,我们的方法可以发现鸟类的几乎整个部分,例如翅膀和头部,而CAM方法[48]只能找到鸟类的一小部分,例如头部。 图5比较了挖掘对象区域中两个分类器的对象定位图。 我们观察到分类器A和分类器B成功地发现了不同但互补的目标区域。 来自两个分类器的定位图最终可以融合成一个强大的定位图,其中整体对象被有效地突出显示。 因此,我们获得了提升的定位性能。


图4:与CAM方法的比较。 我们的方法可以定位较大的对象区域以提高定位性能(真实状况边界框为红色,预测为绿色)。

图5:所提出方法的对象定位图。我们比较了ILSVRC,Caltech256和CUB-200-2011数据集上两个分支的互补效果。对于每个图像,我们显示来自分类器A(左中),分类器B(中右)和融合地图(右)的对象定位图。所提出的两个分类器(A和B)可以发现目标对象的不同部分,以便在给定图像中定位相同类别的整个区域。

模块研究

在所提出的方法中,两个分类器通过擦除分类器B的输入特征图来定位不同的感兴趣区域。我们通过硬阈值$δ$识别鉴别区域。 为了检查其对定位精度的影响,我们测试了不同的阈值$δ \in \{0.5, 0.6, 0.7, 0.8, 0.9\}$,在表6中展示。当ILSVRC上的阈值$δ=0.6$时,我们在 Top-1 错误中获得最佳性能,并且当擦除阈值更大或更小时,它变得更差。 我们可以得出结论:1)所提出的互补分支(分类器B)成功地与分类器A协同工作,因为前者可以挖掘互补对象区域以生成整体对象区域; 2)精心设计的阈值可以改善性能,因为过大的阈值不能有效地促使分类器B发现更有用的区域,而过小的阈值可能带来背景噪声。

表6:具有不同擦除阈值的定位错误值。

我们还测试了三个分类器的级联网络。 特别地,我们添加第三个分类器并擦除由分类器A和B的融合对象定位图引导的输入特征映射。我们观察到分类和定位性能没有显着改善。 因此,添加第三分支不一定改善性能,并且两个分支通常足以定位整体对象区域。

此外,我们消除了分类结果造成的影响,并使用真实情况标签比较了定位精度。 如表7所示,提出的ACoL方法在Top-1错误中达到37.04%并超过其他方法。 这表示我们的方法生成的对象定位图的优越性,并表明所提出的两个分类器可以成功地定位互补的对象区域。

表7:具有真实情况标签的ILSVRC验证集的定位错误值。

结论

我们首先在数学上证明了通过从特征图中选择可以方便地获得对象定位图。 在此基础上,我们提出了以弱监督方式定位目标对象区域的对抗性互补学习。 所提出的两个对抗性分类分类器可以定位不同的对象部分并发现属于相同对象或类别的互补区域。 大量实验表明,该方法能够成功挖掘整体物体区域,并且优于现有技术的定位方法。

References

[1] L. Bazzani, A. Bergamo, D. Anguelov, and L. Torresani. Self-taught object localization with deep networks. In Applications of Computer Vision (WACV), 2016 IEEE Winter Conference on, pages 1–9. IEEE, 2016. 2, 3
[2] A. J. Bency, H. Kwon, H. Lee, S. Karthikeyan, and B. Manjunath. Weakly supervised localization using deep feature maps. In eccv, pages 714–731. Springer, 2016. 2
[3] C. Cao, X. Liu, Y. Yang, Y. Yu, J. Wang, Z. Wang, Y. Huang, L. Wang, C. Huang, W. Xu, et al. Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 2956–2964, 2015. 7
[4] A. Chaudhry, P. K. Dokania, and P. H. Torr. Discovering class-specific pixels for weakly-supervised semantic segmentation. arXiv preprint arXiv:1707.05821, 2017. 3
[5] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. arXiv preprint arXiv:1707.01629, 2017. 6
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. Imagenet: A large-scale hierarchical image database. In IEEE CVPR, pages 248–255, 2009. 5
[7] T. Deselaers, B. Alexe, and V. Ferrari. Weakly supervised localization and learning with generic knowledge. ijcv, 100(3):275–293, 2012. 3
[8] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. In International conference on machine learning, pages 647–655, 2014. 6
[9] X. Dong, D. Meng, F. Ma, and Y. Yang. A dual-network progressive approach to weakly supervised object detection. In ACM Multimedia, 2017. 2
[10] X. Dong, L. Zheng, F. Ma, Y. Yang, and D. Meng. Fewexample object detection with model communication. arXiv preprint arXiv:1706.08249, 2017. 2
[11] E. Gavves, B. Fernando, C. G. Snoek, A. W. Smeulders, and T. Tuytelaars. Local alignments for fine-grained categorization. International Journal of Computer Vision, 111(2):191– 212, 2015. 6
[12] R. Girshick. Fast r-cnn. In arXiv preprint arXiv:1504.08083, 2015. 1
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In IEEE CVPR, pages 580–587, 2014. 1
[14] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. 2007. 5
[15] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 6
[16] Q. Hou, P. K. Dokania, D. Massiceti, Y. Wei, M.-M. Cheng, and P. Torr. Bottom-up top-down cues for weakly-supervised semantic segmentation. arXiv preprint arXiv:1612.02101, 2016. 3
[17] S. Hwang and H.-E. Kim. Self-transfer learning for fully weakly supervised object localization. arXiv preprint arXiv:1602.01625, 2016. 3
[18] Z. Jie, Y. Wei, X. Jin, and J. Feng. Deep self-taught learning for weakly supervised object localization. In IEEE CVPR, 2017. 2
[19] D. Kim, D. Yoo, I. S. Kweon, et al. Two-phase learning for weakly supervised object localization. arXiv preprint arXiv:1708.02108, 2017. 2
[20] A. Kolesnikov and C. H. Lampert. Seed, expand and constrain: Three principles for weakly-supervised image segmentation. In ECCV, pages 695–711, 2016. 3
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105, 2012. 1
[22] X. Liang, S. Liu, Y. Wei, L. Liu, L. Lin, and S. Yan. Towards computational baby learning: A weakly-supervised approach for object detection. In IEEE ICCV, pages 999– 1007, 2015. 2
[23] M. Lin, Q. Chen, and S. Yan. Network in network. ICLR, 2013. 1, 3
[24] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´ S. Belongie. Feature pyramid networks for object detection. In CVPR, volume 1, page 4, 2017. 2
[25] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.- Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016. 2
[26] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Is object localization for free?-weakly-supervised learning with convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 685–694, 2015. 2, 3
[27] G. Papandreou, L.-C. Chen, K. Murphy, and A. L. Yuille. Weakly-and semi-supervised learning of a dcnn for semantic image segmentation. arXiv preprint arXiv:1502.02734, 2015. 3
[28] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016. 2
[29] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 2
[30] O. Russakovsky, A. Bearman, V. Ferrari, and L. Fei-Fei. Whats the point: Semantic segmentation with point supervision. In ECCV, pages 549–565, 2016. 2
[31] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 115(3):211–252, 2015. 5
[32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. International Conference on Learning Representations, 2014. 1, 2
[33] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. arXiv preprint arXiv:1312.6034, 2013. 6
[34] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. International Conference on Learning Representations, 2015. 1, 5
[35] K. K. Singh and Y. J. Lee. Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization. arXiv preprint arXiv:1704.04232, 2017. 2, 6, 7
[36] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. arXiv preprint arXiv:1409.4842, 2014. 5
[37] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie. The Caltech-UCSD Birds-200-2011 Dataset. Technical report, 2011. 5
[38] L. Wang, G. Hua, R. Sukthankar, J. Xue, and N. Zheng. Video object discovery and co-segmentation with extremely weak supervision. In ECCV, pages 640–655. Springer, 2014. 2
[39] Y. Wei, J. Feng, X. Liang, C. Ming-Ming, Y. Zhao, and S. Yan. Object region mining with adversarial erasing: A simple classification to semantic segmentation approach. In IEEE CVPR, 2017. 1, 2, 3
[40] Y. Wei, X. Liang, Y. Chen, X. Shen, M.-M. Cheng, J. Feng, Y. Zhao, and S. Yan. Stc: A simple to complex framework for weakly-supervised semantic segmentation. IEEE TPAMI, 39(11):2314–2320, 2017. 3
[41] Y. Wei, X. Liang, Y. n. Chen, Z. Jie, Y. Xiao, Y. Zhao, and S. Yan. Learning to segment with image-level annotations. Pattern Recognition, 2016. 3
[42] Y. Wei, W. Xia, M. Lin, J. Huang, B. Ni, J. Dong, Y. Zhao, and S. Yan. Hcp: A flexible cnn framework for multi-label image classification. IEEE TPAMI, 38(9):1901–1907, 2016. 2
[43] Y. Wei, H. Xiao, H. Shi, Z. Jie, J. Feng, and T. S. Huang. Revisiting dilated convolution: A simple approach for weaklyand semi- supervised semantic segmentation. In IEEE CVPR, 2018. 3
[44] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In European conference on computer vision, pages 818–833. Springer, 2014. 7
[45] J. Zhang, Z. Lin, J. Brandt, X. Shen, and S. Sclaroff. Topdown neural attention by excitation backprop. In European Conference on Computer Vision, pages 543–559. Springer, 2016. 1, 3, 7
[46] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Partbased r-cnns for fine-grained category detection. In eccv, pages 834–849. Springer, 2014. 6
[47] N. Zhang, R. Farrell, F. Iandola, and T. Darrell. Deformable part descriptors for fine-grained recognition and attribute prediction. In iccv, pages 729–736, 2013. 6
[48] B. Zhou, A. Khosla, L. A., A. Oliva, and A. Torralba. Learning Deep Features for Discriminative Localization. IEEE CVPR, 2016. 1, 2, 3, 5, 6, 7

自己的看法

文中重新审视了CAM,并且改造了CAM,改造的方法可以这么来看,原本的CAM是一步到位,这里的一步到位指的是从特征映射到分类之间维数的转变,完成这一步到位之后,再回过头来计算出组合map。而本文的改造相当于将CAM的一步,拆成了两步,两步分别是$K$维到$C$维的信道数变化,和二维到一维的空间维数变化。

另外,重新改造的CAM相比于Grad-CAM,仍然需要改造原本的全卷积网络结构,但是本文是针对弱监督定位的问题,所以这点也无需探讨了。

本文提出的ACoL是源于魏云超原本对弱监督语义分割提出的一种对抗性擦出方法(AE),AE通过多次擦除后,最后拼接在一次,成为物体对象的mask。AE的缺点在于训练时间长,因为不知道什么时候该停止,原文是通过损失函数的变化情况来确定的。本文的ACoL却将原本的目标问题,弱监督语义分割简化成了弱监督对象定位(相比于语义分割需要得出精确的mask,对象定位只要规定好阈值,得出边界框即可)。个人猜测,本文的ACoL虽然相比于原本AE,训练框架确定且简单,训练时间大幅度减少,而且改造了CAM后框架是端到端的,但是只有两次的鉴别区域相结合,在弱监督语义分割方面可能还不如原本需要多次结合的AE,所以才将目标问题放到了对象定位上。突出了ACoL的框架简单有效的特点。

一分一毛,也是心意。