《Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach》笔记

摘要

我们研究了利用分类网络逐步挖掘鉴别对象区域以解决弱监督语义分割问题的一种原理方法。分类网络只能从感兴趣的对象的小和稀疏的鉴别区域做出相应,这偏离了分割任务的要求:它需要定位密集、内部和整体区域以进行每个像素的推断。为了弥补这个差距,我们提出了一种新的对抗擦除方法,以逐步定位和扩展对象区域。从单个小的对象区域开始,,我们提出的方法通过对抗方式擦除当前挖掘出的区域,使用分类网络依次发现新的和补充的对象区域。这些定位出的区域最终构成了学习语义分割的密集且完整的对象区域。为了进一步提高通过对抗擦除而被发现的区域的质量,我们开发了一种在线禁止分割的学习方法,通过提供由更可靠的分类分数调整的辅助分割监督,被用于与对抗擦除进行协作。尽管它看似简单, 但所提出的方法在PASCAL VOC 2012的验证集和测试集上达到55.0% 和55.7%的mIoU分数, 这是新的顶峰状态。

引言

深度神经网络(DNNs)在语义分割任务[2, 13, 15, 33]上取得了显著的成功,受益于像素级标注的mask的可用资源。然而, 在新的图像集上收集大量精确的像素级标注来训练语义分割网络是很消耗劳动力的,不可避免地需要大量的金融投资。为了缓解对昂贵像素级图像标注的需求, 弱监督方法 [10, 12, 14, 16-20, 22-24, 28, 29] 提供了一些有希望的解决方案。

在不同层次的弱监督信息中,被用来训练语义分割模型中最简单有效的是图像级注释 [30, 32]。然而, 要训练一个表现良好但只给定这样的图像级注释的语义分割模型是相当具有挑战性的,一个障碍是如何准确地将图像级标签分配给训练图像的相应像素,这样基于DNN的方法可以学会端到端地分割图像。为了建立所需的标签 - 像素对应关系,一些研究的方法可以归类为基于候选框和基于分类的方法。基于候选框的方法[20, 28]经常用尽地测试每个候选框以生成像素级mask,这是相当费时的。相比之下, 基于分类的方法 [10, 16-19, 24] 提供了更有效的替代方案。这些方法采用分类模型选择对分类目标最具鉴别性的区域, 并采用区域作为语义分割学习的像素级监督。然而, 对象分类模型通常识别并依赖于感兴趣的对象中一个小而稀疏的判别区域(如图1(a)所示的分类网络的热力图所高亮的)。它偏离了分割任务的要求:它需要定位密集、内部和整体区域以进行每个像素的推断。这种偏差成为了调整分类模型以解决分割问题的主要障碍,并且会损害分割结果。为了解决这个问题, 我们提出了一种新的对抗性擦除方法(AE), 它可以使用分类网络逐步学习出完整的对象区域。AE方法可以被视为建立一系列竞争对手,试图挑战分类网络以发现特定类别的一些证据,直到没有可支持的证据。


图1.(a)所提出的AE方法的说明。通过AE的分类网络首先挖掘图像分类标签 “狗” 的最鉴别区域。然后,AE从图像中清除所挖掘的区域(头),重新训练分类网络,发现一个新的对象区域(身体)用于执行分类而不会降低性能。我们多次重复这种对抗性擦除过程, 并将擦除的区域合并为一个完整的前景分割mask。

具体来说,我们首先使用图像级的弱监控信息 (即对象类别标注)来训练图像分类网络。使用分类网络定位出图像中的最鉴别区域,以推断对象类别。然后, 我们从图像中擦除发现的区域,降低分类网络的性能。为了弥补性能下降,分类网络需要定位另一个鉴别区域,以便正确地对图像进行分类。通过这种重复的对抗性擦除操作, 分类网络能够挖掘属于感兴趣对象的其他鉴别区域。图1.(a)中的一个例子说明了该过程, 其中头是分类 “狗” 图像的最有鉴别性的部分。在擦除头部并重新训练分类网络后,另一个鉴别性部分(身体)会被挖掘出。重复这种对抗性擦除可以定位出越来越多对于图像类别来说具有鉴别性的区域诊断图像类别,直到没有找到更多的信息区域。最后, 将被擦除区域合并成一个像素级语义分割mask,可用于训练分割模型。图1.(b) 显示了更多可视化示例。

然而, AE方法可能会遗漏一些对象相关区域,并引入一些噪声,因为对边界的关注较少。为了利用这些被忽略的与对象相关的区域以及减轻噪音,我们进一步提出了一种互补的在线禁止分割学习(PSL)方法,与AE一起工作,以发现更完整的对象区域并学习更好的语义分割模型。具体地,PSL使用预测的图像级别分类置信度来调整对应的类别特定响应图并将它们形成为辅助分割mask,其可以在线更新。禁止那些具有低分类置信度的类别特定分割图对形成的监督mask做出贡献,从而可以有效地降低噪声。

总而言之,我们的主要贡献有三方面:

  • 我们提出了一种新的AE方法,可以有效地使图像分类网络不断挖掘和扩展目标对象区域,并最终生成可用于训练分割模型的完整对象分割mask。
  • 我们提出了一种在线PSL方法,利用图像级别分类置信度来减少监督mask内的噪声,并实现更好的分割网络训练,与AE协作。
  • 我们的工作在PASCAL VOC分割基准的验证集和测试集分别达到了55.0%和55.7%的价值,这是最新的巅峰状态。

相关研究

为了减少像素级标注的负担,已经提出了各种弱监督方法用于学习,为了用较粗略的注释来执行语义分割。例如:Papandreou等人 [16] 和Dai等人[3]提出使用标注的边界框来学习分割。最近,Lin等人[12] 采用线条作为语义分割的监督。 在[22]中,所需的监督信息进一步放宽到实例的点。 所有这些标注都可以被认为比像素级标注简单得多。

一些研究 [16-19, 27, 31] 提出仅使用图像级标签来训练分割模型,这是训练语义分割模型的最简单的监督。在这些研究中,Pinheiro等人 [19] 和Pathak等人 [18] 提出利用多实例学习(MIL)训练模型进行分割。Pathak等人 [17] 引入了受约束的CNN模型来解决这个问题。Papandreo等人 [16] 采用了基于期望最大化算法的替代训练程序来动态预测语义前景和背景像素。但是,这些方法的表现并不令人满意。最近,提出了一些新的方法 [10, 20, 23, 24, 28, 29],以进一步改善这项具有挑战性的任务的性能。尤其是Wei等人 [29] 提出了一种简单到复杂的学习方法,其中初始分割模型用简单图像训练,使用显着性图进行监督。然后,逐渐加入复杂度更大的样本以进一步增强分割模型的能力。在 [10] 中,提出了三种损失函数,即播种,扩展和约束到边界,并将其集成到统一的框架中以训练分割网络。[10] 和我们的研究都建议根据分类网络来定位对象线索。但是,Kolesnikov等人 [10] 只能获得小而稀疏的与物体有关的种子进行监督。相比之下,所提出的AE方法能够挖掘完整的对象相关区域,这可以提供更丰富的监督信息用于学习以执行语义分割。另外,Qi等人 [20] 提出了一种增强反馈方法,其中采用GrabCut [21] 和对象候选框来生成用于监督的像素级标注。据我们所知,Qi等人 [20] 使用选择性搜索 [26](52.7%)和MCG [1] 语义候选框(55.5%),在PASCAL VOC基准获得了最先进的mIoU分数。 但是请注意,MCG已经通过PASCAL训练图像的像素级标注进行训练,因此是通过使用更强的监督来获得 [20] 的相应结果。

语义分割的分类

所提出的语义分割方法的分类包括两个新颖的组件,即用AE进行对象区域挖掘和用在线PSL进行语义分割。

用AE进行对象区域挖掘

为了解决分类网络仅发现小而稀疏的鉴别区域的问题,我们提出了用于逐步定位和扩展对象区域的AE方法。如图2所示,AE迭代地执行两个操作:学习用于定位对象鉴别区域的分类网络并且对抗擦除所发现的区域。特别是,基于DeepLab-CRF-LargeFOV [2] 模型初始化分类网络。全局平均池化在conv7上应用,生成的表示通过全连接层来预测分类。在第一个操作中,我们通过最小化平方标签预测损失来训练分类网络,如[30]所示。在执行擦除的第二个操作中,我们首先使用分类激活图(CAM)方法为每个图像级别标签生成热力图[34]。 然后,通过将硬阈值应用于热力图来获得鉴别对象区域。我们通过用所有训练图像的平均像素值替换其内部像素来从训练图像中擦除挖掘区域。然后将具有擦除区域的处理图像馈送到下一个分类学习迭代中。 由于鉴别区域已被移除并且不再有助于分类预测,因此分类网络自然地被驱动以发现新的对象鉴别区域以维持其分类准确度水平。 我们重复分类学习和AE过程几次,直到网络不能很好地收敛于产生的训练图像,即没有剩下更多的鉴别区域进行相当好的分类。


图2.提出的对抗性擦除方法概述。在步骤$t$,我们首先用当前处理的图像训练分类网络;然后采用分类激活方法(例如CAM [34])来产生特定类响应热力图($H_t$)。 在热力图$H_t$上应用硬阈值找出鉴别区域$F_t$。 然后,所提出的方法从$I_t$中删除$F_t$并产生$I_{t + 1}$。 然后将该图像馈送到分类网络中以学习定位新的鉴别区域。 学习的热力图和相应的已执行擦除的训练图像显示在底部。 来自多个步骤的挖掘区域一起构成预测对象区域作为输出,其用于稍后训练分割网络。来自多个步骤的挖掘区域一起构成预测对象区域作为输出,其用于稍后训练分割网络。

我们现在更正式地解释AE过程。假设训练集 $\mathcal{I}=\{(I_i,\mathcal{O}_i)\}_{i=1}^N$包含$N$张图片,$\mathcal{F}=\{F_i\}_{i=1}^N$表示通过AE的挖掘对象区域。我们迭代地在第$t$学习步骤中对训练图像$I_{i,t}$使用分类模型$M_t$,产生目标区域$F_{i,t}$。将$\mathcal{C}$表示为对象类别集合,CAM(·)表示为热力图生成的操作。可以根据CAM($I_{i,t},M_t,c$)得到$I_{i,t}$的第$c$个热力图$H_{i,t}^c$,其中$c \in \mathcal{O}_i$,$\mathcal{O}_i \in C$是$I_{i,t}$的图像级标签集。为了使分类网络从$I_{i,t}$中扩展对象区域,我们擦除$H_{i,t}^c$上的值大于$\delta$的像素,然后,通过算法1中总结的过程获得$\mathcal{F}$。

除了挖掘前景对象区域之外,查找背景位置线索对于训练分割网络也是至关重要的。在 [10,29] 的推动下,我们使用显着性检测技术 [9] 来产生训练图像的显着性图。基于生成的显着图,选择像素具有低显着性值的区域作为背景。假设$B_i$表示$I_i$所选的背景区域。我们可以得到分割mask $\mathcal{S}=\{S_i\}_{i=1}^N$,其中$S_i=F_i \cup B_i$。我们为了产生$\mathcal{S}$忽略了三种像素:1)那些冲突的不同类别的擦除前景区域;2)位于由AE识别的对象区域内的那些低显着像素;3)那些未分配语义标签的像素。 图3(a)中示出了分割mask生成过程的一个示例。 “黑色”和“紫色”区域分别指代背景和对象。


图3.(a) 分割mask生成的过程。(b)提出的用于语义分割的在线PSL方法。分类分数用于对“分割分数图”进行加权,以在线方式生成“加权地图”。具有低分类置信度的那些类被禁止用于产生分割mask。然后,使用挖掘的mask和在线生成的mask来优化网络。

使用在线PSL进行语义分割

所提出的AE方法为每个训练图像提供初始分割mask,其可用于训练分割网络。然而,可能遗漏一些与物体相关或与背景相关的像素(如图3(a)所示的AE输出上的那些“蓝色”像素)。另外,由于AE对捕获边界细节的限制,一些标记像素的语义标签可能是有噪声的。为了利用AE未标记的像素进行训练并获得对错误标记像素的鲁棒性,我们提出了一种在线禁止分割学习(PSL)方法,以进一步学习对AE提供的mask进行语义分割。在线PSL利用图像分类结果来识别可靠的类别分割图,并将它们形成一个噪声较小的辅助监督图,为AE输出提供辅助信息。PSL以在线方式更新所生成的辅助分割图以及分割网络的训练,并且产生越来越可靠的辅助监督。如图3(b)所示,提出的PSL构建了一个框架,其中包括两个分支,一个用于分类,另一个用于语义分割。特别地,PSL使用平方损失作为分类分支的优化目标,其产生的分类置信度由PSL用于加权相应的类别特定分割分数图。在分类结果的帮助下,在线PSL能够将多类别分割图集成到辅助分割mask中,并且除了AE输出之外还提供监督。利用PSL,禁止对应于具有低分类置信度的类别的那些分割图对辅助分割图做出贡献。 因此,可以有效地减轻来自那些不相关类别的噪声。

形式上,将用于分割任务的语义标签集合表示为$\mathcal {C} ^{seg}$,并且将用于给定图像的图像特定标签集合表示为$\mathcal {O} ^{seg}$,其中包括背景类别。在每个训练时期期间,我们将来自分类分支的图像级预测表示为$v$。假设$S$是由AE产生的分割mask。在线PSL利用$\mathcal {C} ^{seg}$上的图像预测来训练由$θ$参数化的分割网络$f(I;θ)$,其预测在图像平面$f_{u,c}(I,\theta)$的每个位置$u$处的每个标签$c \in \mathcal{C}^{seg}$的像素方式概率。为了产生用于训练分割网络的附加分割mask $\hat {S}$,PSL使用$v$来加权前景类别分割分数图,如图3(b)所示。通过这种禁止操作,可以通过乘以小的分类类别得分来抑制来自负分数图的大响应值。同时,还可以增强主要类别(即占据图像的大区域的相应对象)的得分图。 将加权算子表示为$⊗$,然后$\hat S$由下式产生:

这里附加的元素1用于加权背景类别。假设$S_c$和$\hat S _c$表示用类别$c$注释的像素。用于噪声禁止语义分割的交叉熵损失被表达为:

其中

通过在线训练,网络的分割能力逐步提高,可以产生越来越精确的$\hat S$,用于监督后期的训练过程。

在测试过程中,我们对分类置信度较低的类别采取更严格的禁止政策。 特别地,我们将那些小于$p$的分类置信度设置为零并保持其他不变,并应用它们来加权预测的分割得分图并产生最终的分割结果。

(看到这里有些不懂的地方,分割分数图也就是Segmentation Score Maps,是怎么来的,是分类网络平均池化层前面一层卷积层的输出吗?如果是这样的话,大区域的置信度相比于小区域的置信度会更高。)

实验

数据集和实验设置

数据集和评价指标
我们在PASCAL VOC 2012细分基准数据集[5]上评估了我们提出的方法,该数据集有20个对象类别和一个背景类别。 该数据集分为三个子集:训练(1,464个图像),验证(1,449个图像)和测试(1,456个图像)。 按照惯例 [2,6,19],我们通过图像增强将训练图像的数量增加到10,582。 在我们的实验中,只有图像级标签用于训练。 根据21个类别的mIoU评估性能。 所提出的方法的实验分析在验证集上进行。 我们将我们的方法在验证集和测试集上的其他最新方法进行比较。 通过将预测结果提交给官方PASCAL VOC评估服务器获得测试集的结果。

训练/测试设置
我们采用[2]中的DeepLab-CRF LargeFOV作为AE和PSL中分类网络和分割网络的基本网络,其参数由ImageNet[4]上预先训练的VGG-16 [25]初始化。我们使用30个图像的小批量大小,其中从图像中随机裁剪321×321像素的patch以用于训练网络。我们在这个阶段遵循[2]中的训练流程。初始学习率为0.001(最后一层为0.01),并且在6个时期后减少了10倍。培训在15个时期后终止。两个网络均采用NVIDIA GeForce TITAN X GPU进行培训,内存为12GB。我们在实验中使用DeepLab代码[2],该实验是基于公开的Caffe框架[8]实现的。

对于AE的每个步骤,擦除热力图中在最大值的前20%(由[10,34]建议的数值)内的那些像素,然后将其视为前景对象区域。我们使用[9]中的显着性映射来产生背景定位线索。对于属于室内场景(例如沙发或桌子)的图像,我们采用归一化显着性值0.06作为阈值来获取背景定位线索(即显着性值小于0.06的像素被视为背景),以防某些对象被错误地分配到背景。对于其他类别的图像,阈值设置为0.12。对于语义分割的测试阶段,禁止阈值$p$根据经验设置为0.1,CRF [11]用于后处理。

与现有方法进行比较

我们与具有不同标注水平的最先进的弱监督语义分割解决方案进行了广泛的比较,包括线条,边界框,点和图像级标签。这些方法以及我们在PASCAL VOC验证集的结果总结在表1中。在基准中,MIL- * [19],STC [29]和TransferNet [7]使用更多图像(700K,50K和70K)进行训练。所有其他方法都基于10K训练图像,并建立在VGG16 [25]模型之上。


表2.VOC 2012验证集的弱监督语义分割方法比较。

从结果中,我们可以观察到我们提出的方法优于所有其他使用图像级标签和点标注的弱监督工作。特别是,AF-MCG [20]仅使用图像级标签在基准中实现了第二好的性能。然而,MCG发生器在PASCAL VOC上以完全监督的方式进行训练,因此相应的结果,即AF-MCG [20],隐含地利用了更强的监督。因此,通过选择性搜索分割,AF-SS [20]的表现下降了1.7%。此外,AF- * [20]也使用GrabCut [21]来细化用于监督的分割掩模,这对于训练来说通常是耗时的。相比之下,所提出的AE方法对于对象区域挖掘来说非常简单和方便。此外,在线PSL对于训练语义分段网络也是有效且高效的。与使用图像级标签进行监督的方法相比,所提出的AE-PSL在最佳性能上提高了2.4%以上。此外,我们的方法也优于那些隐含使用像素级监督超过0.7%的方法。 PASCAL VOC测试的这些方法之间的其他比较如表2所示。可以看出,我们的方法在竞争基准上实现了这项具有挑战性的任务的最新技术。


VOC 2012测试集的弱监督语义分割方法比较。

图4显示了一些成功的分割,表明即使对于某些复杂图像,我们的方法也能产生准确的结果。 在图4的底行中给出了一种典型的失败情况。这种情况可以通过更好的擦除策略很好地解决,例如使用低级视觉特征(例如颜色和纹理)来改进和扩展擦除区域。


图4. VOC 2012 验证集的定性分割结果。 最后一行显示了一个失败例子。

模块分析

用AE挖掘对象区域

利用AE方法,逐步擦除鉴别对象区域。因此,预计在不同AE步骤的训练收敛时分类网络的损失值将逐渐增加,因为不存在用于训练分类网络的更多鉴别区域。图5(a)显示了不同AE步骤的分类训练损失曲线的比较。可以观察到,训练与原始图像的收敛时的损失值约为0.05。通过执行AE的多个步骤,与AE-step1相比,收敛损失值略微增加(AE-step2:~0.08,AE-step3:~0.1)。这表明AE擦除了具有降低鉴别能力的区域。通过继续执行AE以执行更多步骤以擦除更多区域,分类网络仅收敛到产生大约~0.15的训练损失的分类网络。这表明由于过度擦除,没有更多有用的区域可用于获得产生良好的分类网络。过度擦除可能会将许多真正无用区域引入挖掘的前景对象区域并妨碍学习分割。 图5(b)显示了由于过度擦除引起的一些失败情况。 在从训练图像中擦除大多数对象区域的情况下,分类网络必须依赖于一些周边区域来识别类别。 这些区域是真正的无用区域,对分割网络训练不利。 为了防止来自无用区域的影响,我们仅将从前三个步骤挖掘的那些鉴别区域整合到最终的分割mask中。


图5.(a)针对不同的AE步骤,针对不同数量的训练时期的分类网络的损失曲线。(b)使用四个AE步骤过度擦除样本的失败情况。

为了定量地理解每个AE步骤的贡献,表3示出了使用基于DeepLab-CRF-LargeFOV的变化$k$($k = 1; 2; 3; 4$)AE步骤合并的前景区域的mIoU分数的比较来训练分割网络。我们可以观察到,随着更多前景对象区域的添加,性能确实增加,因为分割网络变得更加密集。然而,在执行四个AE步骤之后,由于如上所述的过度擦除,性能下降了2.1%。一些可视化示例如图6所示,包括训练图像(顶行),不同AE步骤产生的热力图和最终擦除区域(底行)。我们可以观察到AE方法有效地使用分类网络以定位不同的鉴别对象区域。例如,首先定位覆盖最后一列中所示的最右侧“牛”实例的区域。通过擦除此实例,然后发现左侧的另外两个实例。我们还使用从前三个AE步骤合并的对象区域对VOC 2012测试集进行实验。 mIoU得分为52.8%,优于所有这些方法(如表2所示),仅使用图像级标签进行监督。


表3. 在VOC 2012 验证集 使用来自不同AE步骤的对象区域的分割mIoU分数的比较。

使用在线PSL进行语义分割

我们现在开始评估在线PSL并通过发现辅助信息来研究它如何使AE方法受益。 我们在表4中报告了在线PSL的性能,其中“w/o PSL”和“w / PSL”分别表示普通DeepLab-CRF-LargeFOV和提出的PSL训练方法的结果。我们可以观察到,与“w / o PSL”相比,PSL将性能提高了3.2%,证明了PSL提供额外有用的分段监督的显着效果。


表4. 在VOC 2012 验证集的不同训练策略分割mIoU分数的比较。

此外,我们在PSL上再执行一次迭代训练,以改善分割结果。 特别地,我们首先使用来自AE和PSL的训练的分割模型来分割训练图像。然后,预测的分割mask用作监督用于训练另一轮的分割网络。 如表4所示,这种额外训练(表示为w/ PSL++)提供的性能进一步从54.1%提高到55.0%。该改进受益于对训练图像的预测分割mask执行CRF的操作。 在CRF结果之上进行一轮训练后,分割网络已经过良好的训练。 由于没有提供新的监督信息,我们无法通过执行额外的训练来进一步提高性能。

此外,我们还检查了我们的测试策略的有效性,其中禁止阈值根据经验设置为0.1。我们利用真实的图像级标签作为分类置信度来对预测的分割分数图进行加权(注意这与训练阶段中施加的禁止信息不同)。 结果是56.1%(“w/ PSL+GT”),仅比“w/ PSL++”好1.1%。请注意,“w/ PSL+GT”实际上提供了可实现性能的上限,因为分数图由真实的类别标注生成,并且“w/ PSL++”执行后与此上限非常接近。

PSL采用分类网络的动态输出来重新加权分割得分图。这种分类信息的另一个选择是真实标注。我们还考虑使用真实的图像级标签在训练阶段禁止并评估性能。然而,与我们提出的PSL设计相比,使用真实的信息导致性能下降0.6%。这是因为PSL有效地利用了关于对象尺度的信息,这有利于产生更准确的分割掩模(即,与小对象的分类相比,优选具有高分类分数的大对象的类别)。简单地使用0-1真实标注忽略了尺度并且表现更差。我们还研究了PSL如何在不使用图像级分类置信度的情况下执行,并发现性能下降1%。这清楚地验证了使用图像级分类信息的所提出的在线PSL方法的有效性。


图6.通过提出的对抗性擦除方法产生的挖掘对象区域的例子。第二到第四行显示产生的热力图,其中鉴别区域被突出显示。具有擦除区域的图像以灰色显示在最后一行中。

结论

我们提出了一种对抗性擦除方法,以有效地调整分类网络,逐步发现和扩展对象判别区域。发现的区域用作像素级监督,用于训练分割网络。这种方法为弱监督分割问题提供了一种简单有效的解决方案。此外,我们提出了一种在线禁止分割学习方法,该方法对于将辅助信息合并到AE是有效的。实际上,PSL方法可以帮助任何其他弱监督方法。这项工作为实现弱监督的语义分割指出了对抗性擦除的新方向。在未来,我们计划制定更有效的策略来改进对抗性擦除,例如使用自适应步骤擦除每个训练图像或将对抗性擦除和PSL集成到更统一的框架中。

References

[1] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In IEEE CVPR, pages 328–335, 2014.
[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. preprint arXiv:1412.7062, 2014.
[3] J. Dai, K. He, and J. Sun. Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. IEEE ICCV, 2015.
[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. Imagenet: A large-scale hierarchical image database. In IEEE CVPR, pages 248–255, 2009.
[5] M. Everingham, S. A. Eslami, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. IJCV, 111(1):98–136, 2014.
[6] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik. ´ Semantic contours from inverse detectors. In IEEE ICCV, pages 991–998, 2011.
[7] S. Hong, J. Oh, B. Han, and H. Lee. Learning transferrable knowledge for semantic segmentation with deep convolutional neural network. IEEE CVPR, 2016.
[8] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In ACM Multimedia, pages 675–678, 2014.
[9] H. Jiang, J. Wang, Z. Yuan, Y. Wu, N. Zheng, and S. Li. Salient object detection: A discriminative regional feature integration approach. In IEEE CVPR, pages 2083–2090, 2013.
[10] A. Kolesnikov and C. H. Lampert. Seed, expand and constrain: Three principles for weakly-supervised image segmentation. In ECCV, pages 695–711, 2016.
[11] V. Koltun. Efficient inference in fully connected crfs with gaussian edge potentials. In NIPS, 2011.
[12] D. Lin, J. Dai, J. Jia, K. He, and J. Sun. Scribblesup: Scribble-supervised convolutional networks for semantic segmentation. IEEE CVPR, 2016.
[13] S. Liu, X. Liang, L. Liu, X. Shen, J. Yang, C. Xu, L. Lin, X. Cao, and S. Yan. Matching-cnn meets knn: Quasiparametric human parsing. In IEEE CVPR, pages 1419–1427, 2015.
[14] S. Liu, S. Yan, T. Zhang, C. Xu, J. Liu, and H. Lu. Weakly supervised graph propagation towards collective image parsing. IEEE TMM, 14(2):361–373, 2012.
[15] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In IEEE CVPR, 2015.
[16] G. Papandreou, L.-C. Chen, K. Murphy, and A. L. Yuille. Weakly-and semi-supervised learning of a dcnn for semantic image segmentation. arXiv preprint arXiv:1502.02734, 2015.
[17] D. Pathak, P. Krahenb ¨ uhl, and T. Darrell. Constrained con- ¨ volutional neural networks for weakly supervised segmentation. arXiv preprint arXiv:1506.03648, 2015.
[18] D. Pathak, E. Shelhamer, J. Long, and T. Darrell. Fully convolutional multi-class multiple instance learning. arXiv preprint arXiv:1412.7144, 2014.
[19] P. O. Pinheiro and R. Collobert. From image-level to pixellevel labeling with convolutional networks. In IEEE CVPR, 2015.
[20] X. Qi, Z. Liu, J. Shi, H. Zhao, and J. Jia. Augmented feedback in semantic segmentation under image level supervision. In ECCV, pages 90–105, 2016.
[21] C. Rother, V. Kolmogorov, and A. Blake. Grabcut: Interactive foreground extraction using iterated graph cuts. ACM Transactions on Graphics, 23(3):309–314, 2004.
[22] O. Russakovsky, A. Bearman, V. Ferrari, and L. Fei-Fei. Whats the point: Semantic segmentation with point supervision. In ECCV, pages 549–565, 2016.
[23] F. Saleh, M. S. A. Akbarian, M. Salzmann, L. Petersson, S. Gould, and J. M. Alvarez. Built-in foreground/background prior for weakly-supervised semantic segmentation. In ECCV, pages 413–432, 2016.
[24] W. Shimoda and K. Yanai. Distinct class-specific saliency maps for weakly supervised semantic segmentation. In ECCV, pages 218–234, 2016.
[25] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. International Conference on Learning Representations, 2015.
[26] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 104(2):154–171, 2013.
[27] A. Vezhnevets, V. Ferrari, and J. M. Buhmann. Weakly supervised semantic segmentation with a multi-image model. In IEEE ICCV, pages 643–650, 2011.
[28] Y. Wei, X. Liang, Y. Chen, Z. Jie, Y. Xiao, Y. Zhao, and S. Yan. Learning to segment with image-level annotations. Pattern Recognition, 2016.
[29] Y. Wei, X. Liang, Y. Chen, X. Shen, M.-M. Cheng, J. Feng, Y. Zhao, and S. Yan. Stc: A simple to complex framework for weakly-supervised semantic segmentation. IEEE TPAMI, 2016.
[30] Y. Wei, W. Xia, M. Lin, J. Huang, B. Ni, J. Dong, Y. Zhao, and S. Yan. Hcp: A flexible cnn framework for multi-label image classification. IEEE TPAMI, 38(9):1901–1907, 2016.
[31] J. Xu, A. G. Schwing, and R. Urtasun. Learning to segment under various forms of weak supervision. In IEEE CVPR, 2015.
[32] H. Zhang, X. Shang, W. Yang, H. Xu, H. Luan, and T.-S. Chua. Online collaborative learning for open-vocabulary visual classifiers. In IEEE CVPR, 2016.[33] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. Torr. Conditional random fields as recurrent neural networks. arXiv preprint arXiv:1502.03240, 2015.
[34] B. Zhou, A. Khosla, L. A., A. Oliva, and A. Torralba. Learning Deep Features for Discriminative Localization. IEEE CVPR, 2016.

自己的看法

我自己认为,本文最牛逼的地方还是提出对抗性擦出的方法,这个手段在之后被广泛应用(或许没那么广泛……)。但是PSL在我自己的直觉上还是有些不合理,单纯地提高大区域而降低小区域,可能到之后模型想要fine-grained时候会受到很大限制。另外,PSL提出来的动机是文中所说的蓝色区域问题,而$\hat S$是通过分类分数将原本的上升到一个界限,不知道怎么说清楚……就相当于$S$和$\hat S$是两个界限,它们不怎么样,而较优的结果在它们中间某个度。所以可能比较好的办法是,直接把$\hat S$上升到一个界限,比如文中后面用的真实的标签0-1值,之后从损失函数的超参数入手,可能出来的结果会更好一些。然后对于这个后面使用真实的标签0-1值,不太理解测试过程是怎么样,测试样本会提供图像级的标签吗?

引一下魏云超本人对这个方法的看法:

存在两个明显的问题:1)需要多次训练分类网络,时耗较高;2)对于每张训练图片很难确定何时停止擦除操作。我们在文章中采用通过观察分类网络收敛的loss值的方式来决定擦除的次数,但该方法很难保证所有训练图片都能达到最好的擦除效果。

一分一毛,也是心意。