《Seed, Expand and Constrain Three Principles for Weakly-Supervised Image Segmentation》笔记

简介

种子,扩展和约束:弱监督图像分割的三个原则

16年的ECCV,代表性的弱监督语义分割方法。

在GAIN中,使用到了它,主要想看一下SEC是怎么使用作为先验的注意力图的。

摘要

我们基于三个指导原则为语义图像分割模型的弱监督训练引入了一种新的损失函数:利用弱定位线索来种子,基于图像中可能出现的类的信息来扩展对象,并约束分割与对象边界重合。 我们通过实验证明,使用所提出的损失函数训练深度卷积神经网络导致比具有挑战性的PASCAL VOC 2012数据集的先前最先进方法更好的分割。 我们通过详细的实验研究深入了解了我们方法的工作机制,该实验研究说明了分割质量如何受到所提出的损失函数的每个项以及它们的组合的影响。

关键词:弱监督语义分割,深度学习

引言

计算机视觉研究最近取得了巨大进展。 现在可以高精度地解决许多具有挑战性的视觉任务,假设有足够多的注释数据可用于训练。 不幸的是,收集大型标记数据集非常耗时,并且通常需要大量的金融投资。 因此,训练数据的构建已成为计算机视觉方法进一步发展的瓶颈。 然而,可以以相对快速和廉价的方式大量收集未标记的视觉数据。 因此,计算机视觉研究中一个有希望的方向是开发可以从未标记或部分标记的数据中学习的方法。

在本文中,我们专注于语义图像分割的任务。 图像分割是一种重要的视觉任务,为此创建的标注是特别昂贵的一个突出例子:如 [29,4] 报告,每个图像手动产生分割mask需要几个工人分钟。 因此,大量先前的研究研究如何从较弱的注释形式训练分割模型。

一个特别吸引人的设置是使用仅具有每个图像标签的训练集来学习图像分割模型,因为这种弱监督形式可以非常有效地收集。 然而,目前在按照每个图像标签训练的模型和从完全分割mask训练的模型之间仍存在很大的性能差距。 在本文中,我们证明与先前的最先进技术相比,这种差距可以大大减少。

我们提出了一种新的复合损失函数,用于训练卷积神经网络,来用于弱监督图像分割的任务。 我们的方法依赖于以下三个见解:

  • 图像分类神经网络,例如AlexNet [19] 或VGG [33],可用于生成可靠的对象定位线索(种子),但无法预测对象的确切空间范围。 我们通过使用种子损失来结合这一方面,该种子损失鼓励分割网络匹配定位提示,但是对于图像的其余部分是不可知的。

  • 为了从每个图像标注训练分割网络,可以使用全局池化层将分割mask聚合成图像级标签分数。该层的选择对分割的质量有很大影响。 例如,最大池化倾向于低估对象的大小,而平均池化往往会高估它[26]。 我们提出了一个全球加权等级池化,它通过扩展损失来利用,将对象种子扩展到合理规模的区域。 它扩展了最大池化和平均池化,并在我们的实证研究中表现优于它们。

  • 从图像级标签训练的网络很少捕获图像中对象的精确边界。 在测试时通过全连接条件随机场(CRF)进行后处理通常不足以克服这种影响,因为一旦网络经过训练,他们就会对错误分类的区域产生信心。 我们提出了一种新的约束到边界损失,可以在训练时缓解不精确边界的问题。 它努力约束预测的分割mask以重视低级图像信息,特别是对象边界。

我们将我们的方法命名为SEC,因为它基于三个原则:种子,扩展和约束。 我们在第3节中正式定义和讨论了SEC损失函数的各个组成部分。在第4节中,我们通过PASCAL VOC 2012图像分割基准对其进行了实验评估,结果表明它在相同的实验设置下基本上优于先前的最先进技术。我们还通过额外的实验分别讨论和评估每项贡献的影响,从而提供进一步的见解。

相关研究

语义图像分割,即为图像的每个像素分配语义类标签,是计算机视觉研究中相对较新兴趣的主题,因为它需要现代机器学习技术的可用性,例如鉴别分类器 [31, 5] 或概率图模型 [28, 21]。 由于完全标注的训练数据的创建是进一步改进这些系统的主要瓶颈,因此很快提出了弱监督的训练方法以节省标注工作。 特别是,开发了一些竞争方法,它们只需要部分分割 [37, 11] 或对象边界框 [20, 52, 8] 作为训练数据。

然而,剩下的挑战是从图像级标签中学习分割模型 [35, 36]。 现有方法分为三大类。 基于图的模型基于图像内或图像之间的相似性来推断片段或超像素的标签 [47, 48, 46, 43, 27]。 多实例学习[1]的变体训练具有每图像的损失函数,同时在内部维持图像的空间表示,可用于产生分割mask [38, 39, 40]。 自我训练传统中的方法 [30] 训练一个全监督的模型,但在类似EM的过程中使用模型本身创建必要的像素级注释 [44, 45, 49]。 我们的SEC方法包含后两种方法的各个方面,因为它使用了每个图像损失项以及每像素损失项。

在分割质量方面,目前只有基于深度卷积网络的方法 [19, 33] 才足以解决与全监督方法可以处理的难度相似的分割数据集,例如PASCAL VOC 2012 [9],我们利用这项工作。特别是,MIL-FCN [25],MIL-ILP [26] 和 [4, 18] 的方法在多实例学习环境中利用深度网络,主要区别在于它们的池化策略,即它们如何转换其内部空间表示到每图像标签。 EM-Adapt [23] 和CCNN [24] 依赖于自我训练框架,并且它们在如何强制每个图像注释和预测的分割mask之间的一致性方面存在差异。SNB [41] 增加了创建和组合多个候选对象的附加步骤。 我们尽可能在第4节中对这些方法进行实验比较。

从图像级标签中进行弱监督分割

在本节中,我们将介绍我们的方法的技术说明。 我们用$\mathcal{X}$表示图像的空间。 对于任何图像$X \in \mathcal{X}$,分割掩模$Y$是$n$个空间位置处的语义标签的集合$(y_1,…,y_n)$。语义标签属于大小为$k$的集合$\mathcal{C}=\mathcal{C}’ \cup \{c^{bg}\}$,其中$C’$是所有前景标签的集合,而$c^{bg}$是背景标签。我们假设训练数据$\mathcal{D}=\{(X_i,T_i)\}_{i=1}^N$,由$N$个图像组成,$X_i\in \mathcal {X}$其中每个图像由存在于图像中的前景标签集合$T_i \subset \mathcal{C}’$进行弱标注。

我们的目标是训练一个深度卷积神经网络$f(X;θ)$,用$θ$参数化,对在任何位置$u \in \{1,2,…,n\}$观察任何标记$c \in \mathcal{C}$的条件概率进行建模,即$f_{u,c}(X;θ)=p(y_u=c|X)$。 为简洁起见,我们经常省略符号中的参数$θ$,并将$f(X;θ)$简单地写为$f(X)$。

弱监督图像分割的SEC损失

我们用于学习分割神经网络的参数$θ$的方法依赖于最小化具有三个项的损失函数。 第一个项$L_{seed}$为网络提供定位提示,第二个项$L_{expand}$惩罚网络以预测具有太小或错误对象的分割mask,第三个项$L_{constrain}$鼓励尊重图像的空间和颜色结构的分割。总的来说,我们提出为参数学习解决以下优化问题:

在本节的其余部分,我们将详细解释每个损失项。 设置的示意图可以在图1中找到。

图1:SEC的示意图,其基于最小化由三个项组成的复合损失函数:种子损失,扩展损失和约束-边界损失。 详见第3节。

种子损失与定位提示
图像级标签未明确提供有关图像中语义对象位置的任何信息。 然而,正如许多最近的研究论文 [22, 50, 32, 3] 所指出的那样,仅从图像级标签训练的深度图像分类网络可以成功地用于检索对象定位的提示。 我们将此过程称为弱定位,并在图2中对其进行说明。

图2:弱定位程序的示意图。

不幸的是,定位提示通常不够精确,不能用作完整和准确的分割mask。 然而,这些线索对于指导弱监督的分割网络非常有用。 我们建议使用种子损失来鼓励神经网络的预测仅匹配弱定位程序给出的“标志”而忽略图像的其余部分。假设$S_c$是一组由弱定位程序标记$c$类的位置。然后种子损失$L_{seed}$具有以下形式:

请注意,对于计算$L_{seed}$,需要弱定位集$S_c$,因此文献中的许多现有技术基本上可以用作黑盒子。 在这项工作中,我们依靠 [50] 来弱定位前景类。 然而,这种方法没有提供选择置信背景区域的直接方法,因此我们使用[32]中基于梯度的显着性检测方法来实现此目的。 我们在第4节中提供了有关弱定位程序的更多详细信息。

全局加权等级池化的扩展损失
为了测量分割mask是否与图像级标签一致,可以将分割分数聚合到分类分数中并将标准损失函数应用于多标签图像分类。 在弱监督分割/检测的背景下,研究使用各种技术将分数图聚合成分类分数。 最突出的是全局最大池化(GMP)[22],它在任何图像$X$中分配任何类别$c$得分为$max_{u \in \{1,…,n\}}f_{u,c}(X)$和全球平均池化 [50] 的得分为$\frac{1}{n} \sum_{u=1}^n f_{u,c}(X)$。

两种池化方式都已成功应用于实践中。 但是,它们有其自身的缺点。 对于图像中存在的类,GMP仅鼓励单个位置的响应较高,而GAP鼓励所有响应都很高。 因此,GMP导致分割网络经常低估对象的大小,而使用GAP训练的网络相反,往往高估它们。 我们在第4节中的实验凭经验支持这一主张。

为了克服这些缺点,我们提出了一种全局加权等级池化(GWRP),一种新的池化方法,可以看作是GMP和GAP的扩展。 GWRP计算每个类别的加权平均分数,其中权重更高的会更有希望的位置。 这样,它会鼓励对象占据图像的某一部分,但与GAP不同,它不太容易过高估计对象大小。

形式上,让索引设置为$I^c=\{i_1,…,i_n\}$定义任何类$c\in \mathcal{C}$的预测分数的降序,即$f_{i_1,c}(x)≥f_{i_2,c}(x)≥···≥f_{i_n,c}(x)$和让 $0<d_c \le 1$是$c$类的衰减参数。 然后我们为图像$X$定义GWRP分类分数$G_c(f(X),d_c)$,如下所示:

注意,对于$d_c=0$,GWRP变为GMP(采用$0^0=1$的约定),对于$d_c=1$,它与GAP相同。 因此,GWRP推广了两种方法,并且衰减参数可用于在两个极端的行为之间进行插值。

原则上,可以为每个类和每个图像单独设置衰减参数。 然而,这需要关于每个类的大对象通常是大量的先验知识,这在弱监督设置中是不可用的。 因此,我们只区分三组:对于在图像中出现的对象类,我们使用衰减参数$d_+$,对于没有出现的对象类,我们使用$d_-$ ,对于背景,我们使用$d_{bg}$。 我们将在第4节讨论如何选择它们的值。

总之,扩展损失项是:

约束到边界的损失
约束到边界损失的高级概念是惩罚神经网络以产生相对于输入图像中的空间和颜色信息不连续的分割。 因此,它鼓励网络学习产生与对象边界匹配的分割mask。

具体来说,我们构造一个完全连通的CRF,$Q(X,f(X))$,如[17]所示,一元势由分割网络预测的概率分数的对数给出,固定参数形式的对势仅依赖于图像像素。 我们缩小图像$X$的尺寸,使其与网络产生的分割mask的分辨率相匹配。 关于CRF参数选择的更多细节在第4节中给出。然后我们将约束到边界损失定义为网络输出和CRF输出之间的平均KL-偏差,即:

这种结构实现了期望的效果,因为它鼓励网络输出与CRF输出一致,CRF输出本身已知产生尊重图像边界的分割。 这种效果的例证可以在图1中看到。

训练

如果所有层的各个梯度都可用,则可以使用反向传播以端到端的方式训练所提出的网络。 为了计算完全连接的CRF的梯度,我们采用了[34]中的程序,该程序成功地用于语义图像分割的上下文中。 图1显示了带有灰色箭头的反向传播过程的梯度流。

实验

在本节中,我们通过实验验证了我们提出的损失函数,包括详细研究其不同项的影响。

实验设置

数据集和评价指标
我们在PASCAL VOC 2012图像分割基准上评估我们的方法,该基准有21个语义类,包括背景[9]。数据集图像分为三个部分:训练(train,1464图像),验证(val,1449图像)和测试(test,1456图像)。按照惯例,我们通过[10]中的其他图像来增加训练部分。由此产生的训练集有10,582个弱注释图像,我们用它来训练我们的模型。我们将我们的方法与验证集和测试集的其他方法进行比较。对于验证集,可以使用真实情况分割mask,因此我们可以评估不同实验的结果。因此,我们也使用这些数据来详细研究我们方法中不同组件的影响。测试集的真实情况分割mask不公开,因此我们使用官方的PASCAL VOC评估服务器来获得定量结果。作为评估指标,我们使用标准的PASCAL VOC 2012细分度量:平均交叉联合(mIoU)。

分割网络
作为分割结构的特殊选择,在本文中我们使用[6]中的DeepLab-CRF-LargeFOV,它是16层VGG网络的略微修改版本[33]。 网络具有大小为321x321的输入并产生大小为41x41的分段掩码,有关该体系结构的更多详细信息,请参见[6]。 我们从具有均值0和方差0.01的正态分布中随机初始化最后(预测)层的权重。 所有其他卷积层都是从公开的VGG模型中初始化的[33]。 注意,原则上,我们的损失函数可以与任何深度卷积神经网络结合。

定位网络
前景类和背景类的定位网络也来自标准VGG架构。 为了提高定位性能,我们对这些网络进行了微调,以解决对于训练数据的多标签分类问题。 由于篇幅限制,我们在补充材料中提供有关这些网络和优化参数的确切详细信息。

注意,为了减少训练SEC所需的计算工作量和内存消耗,可以预先计算定位提示。 如果预先计算的提示可用,则SEC不会在训练时评估和存储定位网络时产生额外的开销。

优化
为了训练网络,我们使用随机梯度下降(SGD),使用的参数在[6]中成功使用。 我们运行SGD 8000次迭代,批量大小为15(从30减少到允许同时训练两个网络),失活率为0.5,权重衰减参数为0.0005。 初始学习率为0.001,每2000次迭代减少10倍。 总体而言,GeForce TITAN-X GPU的训练需要7-8小时,与其他型号的培训时间相当,例如在[23,24]中报告。

衰变参数
GWRP聚合需要指定衰减参数$d_-$,$d_+$和$d_{bg}$,它们控制权重以聚合网络产生的分数。 受先前研究 [23, 24] 的启发,我们使用以下经验法则来表达对自然图像的先验信念:

  • 对于我们想要预测尽可能少像素的图像中不存在的语义类。 因此,我们设置$d_-=0$,这对应于GMP。

  • 对于图像中存在的语义类,我们建议前10%的得分代表总聚合得分的50%。 对于我们的$41x41$mask,这大致对应于$d_+=0.996$。

  • 对于背景,我们建议前30%的得分代表总总得分的50%,结果$d_{bg}=0.999$。

训练时的全连接CRF
为了强制分割网络在训练时已经考虑对象的边界,我们使用全连接的CRF [17]。 作为成对交互的参数,我们使用作者公开实现中的默认值,除了我们将所有空间距离项乘以12以反映我们缩小原始图像以匹配预测分割mask的大小这一事实。

测试时的推断
训练我们的分割神经网络以产生所有类别和位置的概率分数,但是预测分割掩模的空间分辨率低于原始图像。 因此,我们增大预测的分割mask的规模以匹配输入图像的大小,然后应用全连接的CRF [17]来细化分割。 这是一种常见的做法,以前曾在[23,24,6]中使用过。 图3显示了我们在测试时的推理过程的示意图。


图3:我们在测试时的方法的示意图。

复现性
在我们的实验中,我们依赖于caffe深度学习框架[13]结合SEC损失的python实现。 代码和预训练模型是公开的。

数值结果
表1比较了我们的弱监督方法与在相同设置中训练的先前方法的性能,即仅使用来自PASCAL VOC 2012的图像和仅使用图像级标签。 它表明SEC基本上优于以前的技术。 在测试数据上,评估由独立的第三方PASCAL VOC评估服务器执行,其平均交叉联合得分比最先进的方法高出13.5%,最佳得分为21个语义类中的20个。在验证集上,研究人员可以自己计算得分,SEC比现有技术提高了14.1%,并在21个类别中的19个中获得了新的最佳分数。

表1:仅使用每个图像标签的弱监督语义分割的PASCAL VOC 2012结果(mIoU%)。

PASCAL VOC和全监督的DeepLab变体的其他弱监督方法的结果总结在表2中。我们提供这些结果供参考,但强调它们不应简单地与表1进行比较,因为基础方法是在不同(和更大)的训练集或给予其他形式的弱监督,例如用户点击。在这方面,有些条目需要进一步解释:[23]报告了EM-Adapt模型在使用弱注释进行多种图像输出训练时的结果。在 [24] 中仅对每个图像监督重新实现和训练相同的模型,因此这些是我们在表1中报告的值。报告的SN_B [41] 和MIL+ILP+SP的seg变体的结果 [ 26] 是其他人无法比拟的,因为它们是在MCG候选地区[2]的帮助下获得的,这些提案是在PASCAL VOC数据上以完全监督的方式进行训练的。类似地,MIL+ILP+SP-bb利用由使用PASCAL VOC标注边界框训练的BING方法[7]生成的候选边界框。

表2:PASCAL VOC 2012上其他方法的总结果(mIoU%)。注意:该表中的值与表1不能直接比较,因为它们是在不同的实验条件下获得的。

请注意,我们在表1中包含了MIL + ILP + SP的sppxl变体。虽然它在ImageNet数据集的大约760.000个图像上进行了训练,但与我们和其他方法相比,我们认为这不是一个不公平的优势,因为这些隐含有益在使用预训练分类网络进行初始化时,也可以从ImageNet图像中获取。

定性结果
图4显示了典型的成功分割。它表明,即使对于不普通的图像,我们的方法也可以产生精确的分割,并恢复边界的精细细节。图5说明了一些失败情况。正如弱监督系统的典型情况一样,SEC在分割几乎总是出现在同一背景前面的物体时存在问题,例如,船上的水,或轨道上的火车。我们最近在后续工作中解决了这个问题[15]。第二种失败模式是对象区域可以正确分割,但分配了错误的类标签。对于SEC来说,这实际上是非常罕见的,我们认为DeepLab网络具有大视野,因此在分配标签时可以使用完整图像。最后,还可能发生分段仅覆盖对象的一部分。这可能是由于弱定位线索的缺陷,这些线索倾向于可靠地仅检测物体的最具鉴别力的部分,例如,面对一个人。但是,这可能不足以分割整个对象,尤其是当对象彼此重叠或由多个外观非常不同的组件组成时。

图4:预测分割的示例(验证集,成功情况)。

图5:预测分割的示例(验证集,失败情况)。

详细讨论

为了进一步了解SEC损失函数的工作机制,我们对验证集进行了另外两组实验。 首先,我们分析不同的全局池化策略,其次,我们进行模块研究,在视觉上和数字上说明所提出的损失函数中三个项中的每一个的影响。

全局池化策略的影响
如前所述,分割的质量取决于使用哪种全局池化策略将分割掩码转换为每图像分类分数。为了量化这种影响,我们从弱监督训练三个分段网络,使用GMP,GAP或GWRP作为图像中存在的类的聚合方法。对于不存在的类,我们总是使用GMP,即我们惩罚这些类的任何出现。在图6中,我们演示了每个合并策略的可视化结果,并报告了两个数量:预测属于前景(fg)类的像素分数,以及通过mIoU测量的分割性能。我们观察到GWRP在分割质量方面优于其他方法,预测前景像素的分数支持我们早期的假设:用GMP训练的模型倾向于低估对象大小,而用GAP训练的模型平均高估它们。相反,使用GWRP训练的模型产生分割,其中对象平均接近正确的大小。

图6:验证集的结果和使用不同池化策略训练的模型的分割mask的示例。

不同损失项的影响
为了研究每个项在我们的复合损失函数中的贡献,我们训练具有损失函数的分割网络,其中省略了SEC损失的不同项。 图7提供了数值结果,并说明了省略某些损失项时出现的典型分割错误。 当存在所有三个损失项时,获得最佳结果。 然而,实验还允许我们得出关于损失项之间相互作用的两个有趣的额外结论。

图7:验证集的结果和用不同损失函数训练的模型的分割mask的例子。

半监督损失和大视野

首先,我们观察到,在损失函数中具有$L_{seed}$对于实现强力性能至关重要。 如果没有这个损失项,我们的分割网络就无法反映其预测中对象的定位,即使网络确实与全局标签统计数据匹配得相当好。 有关此效果的说明,请参见图7的第三列。

我们相信这种效果可以通过分割网络的大视野(378x378)来解释:如果图像中存在对象,那么大多数预测得分可能会受到此对象的影响,无论物体位于何处。这有助于预测正确的类标签,但可能会对定位能力产生负面影响。其他研究人员通过明确改变网络架构来解决这个问题,以减少其视野[23]。但是,具有小视野的网络功能较弱,并且通常无法识别图像上存在哪些语义标签。我们进行了一项额外的实验(详见补充材料),确认具有小型(211x211)视野网络的SEC的性能明显低于大型(378x378)视野网络,见图8数字结果和可视化示例。因此,我们得出结论,种子损失提供了必要的定位指导,使大型视野网络仍能可靠地定位对象。

图8:验证集的结果和具有小视野或大视野的模型的分割mask的示例。

扩展和约束到边界损失的影响。
通过构造,约束到边界的损失促使相邻颜色的区域具有相同的标签。 然而,这通常不足以将弱定位线索变成覆盖整个物体的分割掩模,特别是如果物体由视觉上不相似的部分组成,例如穿着不同颜色的衣服的人。 有关此效果的说明,请参见图7的第六列。

基于GWRP的扩展损失抑制了不在图像中的类的预测,并且它鼓励图像中的类具有合理的大小。 当与种子损失相结合时,扩展损失实际上导致性能下降。 图7的第五列示出了对此的解释:通常增加对象大小,但是另外预测的区域与图像边界不匹配。

结合起来,种子损失提供了可靠的种子位置,扩展损失充当将分割mask扩大到合理尺寸的驱动力,并且约束到边界的损失限制了分割mask与图像边界对齐,从而整合低级图像信息。结果是显着改进的分割mask,如图7的最后一列所示。

结论

我们提出了一种新的损失函数,用于在只有图像级标签可用时训练深度分割网络。 我们证明,当在相同的实验条件下使用时,我们的方法优于以前最先进的方法,并提供详细的模块研究。

我们还确定了可能有助于进一步改善弱监督细分性能的潜在方向。 我们的实验表明,有关对象大小的知识可以显着提高分割性能。 SEC容易允许通过衰减参数合并尺寸信息,但是需要自动估计物体尺寸的程序。 提高性能的第二种方法是更强的分割先验,例如关于形状或材料。 这可以提供一种方法来避免目前典型的弱监督分割网络的错误,包括我们的错误,例如船只与背景中的水混淆。

References

  1. Andrews, S., Tsochantaridis, I., Hofmann, T.: Support vector machines for multiple-instance learning. In: NIPS (2002)
  2. Arbel´aez, P., Pont-Tuset, J., Barron, J., Marques, F., Malik, J.: Multiscale combinatorial grouping. In: CVPR (2014)
  3. Bazzani, L., Bergamo, A., Anguelov, D., Torresani, L.: Self-taught object localization with deep networks. In: WACV (2016)
  4. Bearman, A., Russakovsky, O., Ferrari, V., Fei-Fei, L.: What’s the point: Semantic segmentation with point supervision. ECCV (2016)
  5. Carreira, J., Sminchisescu, C.: CPMC: Automatic object segmentation using constrained parametric min-cuts. IEEE T-PAMI 34(7) (2012)
  6. Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic image segmentation with deep convolutional nets and fully connected CRFs. In: ICLR (2015)
  7. Cheng, M.M., Zhang, Z., Lin, W.Y., Torr, P.H.S.: BING: Binarized normed gradients for objectness estimation at 300fps. In: CVPR (2014)
  8. Dai, J., He, K., Sun, J.: BoxSup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. In: ICCV (2015)
  9. Everingham, M., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.: The PASCAL visual object classes (VOC) challenge. IJCV 88(2) (2010)
  10. Hariharan, B., Arbelaez, P., Bourdev, L., Maji, S., Malik, J.: Semantic contours from inverse detectors. In: ICCV (2011)
  11. He, X., Zemel, R.S.: Learning hybrid models for image annotation with partially labeled data. In: NIPS (2009)
  12. Hong, S., Oh, J., Lee, H., Han, B.: Learning transferrable knowledge for semantic segmentation with deep convolutional neural network. CVPR (2016)
  13. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093v1 (2014)
  14. Kim, H., Hwang, S.: Scale-invariant feature learning using deconvolutional neural networks for weakly-supervised semantic segmentation. arXiv preprint arXiv:1602.04984v2 (2016), http://arxiv.org/abs/1602.04984v2
  15. Kolesnikov, A., Lampert, C.H.: Improving weakly-supervised object localization by micro-annotation. BMVC (2016)
  16. Kolesnikov, A., Lampert, C.H.: Seed, expand and constrain: Three principles for weakly-supervised image segmentation. arXiv preprint arXiv:1603.06098 (2016), http://arxiv.org/abs/1603.06098
  17. Kr¨ahenb¨uhl, P., Koltun, V.: Efficient inference in fully connected CRFs with gaussian edge potentials. In: NIPS (2011)
  18. Krapac, J., Segvic, S.: Weakly-supervised semantic segmentation by redistributing ˇ region scores to pixels. GCPR (2016)
  19. Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: NIPS (2012)
  20. Liu, S., Yan, S., Zhang, T., Xu, C., Liu, J., Lu, H.: Weakly supervised graph propagation towards collective image parsing. IEEE T-MM 14(2) (2012)
  21. Nowozin, S., Gehler, P.V., Lampert, C.H.: On parameter learning in CRF-based approaches to object class image segmentation. In: ECCV (2010)
  22. Oquab, M., Bottou, L., Laptev, I., Sivic, J.: Is object localization for free? { weaklysupervised learning with convolutional neural networks. In: CVPR. pp. 685{694 (2015)
  23. Papandreou, G., Chen, L.C., Murphy, K.P., Yuille, A.L.: Weakly- and semisupervised learning of a deep convolutional network for semantic image segmentation. In: ICCV (2015)
  24. Pathak, D., Kr¨ahenb¨uhl, P., Darrell, T.: Constrained convolutional neural networks for weakly supervised segmentation. In: ICCV (2015)
  25. Pathak, D., Shelhamer, E., Long, J., Darrell, T.: Fully convolutional multi-class multiple instance learning. In: ICLR (2015)
  26. Pinheiro, P.O., Collobert, R.: From image-level to pixel-level labeling with convolutional networks. In: CVPR (2015)
  27. Pourian, N., Karthikeyan, S., Manjunath, B.: Weakly supervised graph based semantic segmentation by learning communities of image-parts. In: CVPR (2015)
  28. Rabinovich, A., Vedaldi, A., Galleguillos, C., Wiewiora, E., Belongie, S.: Objects in context. In: ICCV (2007)
  29. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: ImageNet large scale visual recognition challenge. IJCV 115(3) (2015)
  30. Scudder, H.J.: Probability of error of some adaptive pattern-recognition machines. IEEE T-IT 11(3) (1965)
  31. Shotton, J., Winn, J., Rother, C., Criminisi, A.: Textonboost: Joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: ECCV (2006)
  32. Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: Visualising image classification models and saliency maps. In: ICLR (2014)
  33. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: ICLR (2015)
  34. Toyoda, T., Hasegawa, O.: Random field model for integration of local information and global information. IEEE T-PAMI 30(8) (2008)
  35. Vasconcelos, M., Vasconcelos, N., Carneiro, G.: Weakly supervised top-down image segmentation. In: CVPR (2006)
  36. Verbeek, J., Triggs, B.: Region classification with Markov field aspect models. In: CVPR (2007)
  37. Verbeek, J., Triggs, W.: Scene segmentation with CRFs learned from partially labeled images. In: NIPS (2008)
  38. Vezhnevets, A., Buhmann, J.M.: Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning. In: CVPR (2010)
  39. Vezhnevets, A., Ferrari, V., Buhmann, J.M.: Weakly supervised semantic segmentation with a multi-image model. In: ICCV (2011)
  40. Vezhnevets, A., Ferrari, V., Buhmann, J.M.: Weakly supervised structured output learning for semantic segmentation. In: CVPR (2012)
  41. Wei, Y., Liang, X., Chen, Y., Jie, Z., Xiao, Y., Zhao, Y., Yan, S.: Learning to segment with image-level annotations. Pattern Recognition (2016)
  42. Wei, Y., Liang, X., Chen, Y., Shen, X., Cheng, M., Zhao, Y., Yan, S.: STC: a simple to complex framework for weakly-supervised semantic segmentation. arXiv preprint arXiv:1509.03150v1 (2015), http://arxiv.org/abs/1509.03150
  43. Xie, W., Peng, Y., Xiao, J.: Weakly-supervised image parsing via constructing semantic graphs and hypergraphs. In: Multimedia (2014)
  44. Xu, J., Schwing, A.G., Urtasun, R.: Tell me what you see and I will show you where it is. In: CVPR (2014)
  45. Xu, J., Schwing, A.G., Urtasun, R.: Learning to segment under various forms of weak supervision. In: CVPR (2015)
  46. Zhang, L., Gao, Y., Xia, Y., Lu, K., Shen, J., Ji, R.: Representative discovery of structure cues for weakly-supervised image segmentation. IEEE T-MM 16(2) (2014)
  47. Zhang, L., Song, M., Liu, Z., Liu, X., Bu, J., Chen, C.: Probabilistic graphlet cut: Exploiting spatial structure cue for weakly supervised image segmentation. In: CVPR (2013)
  48. Zhang, L., Yang, Y., Gao, Y., Yu, Y., Wang, C., Li, X.: A probabilistic associative model for segmenting weakly supervised images. IEEE T-IP 23(9) (2014)
  49. Zhang, W., Zeng, S., Wang, D., Xue, X.: Weakly supervised semantic segmentation for social images. In: CVPR (2015)
  50. Zhou, B., Khosla, A., A., L., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: CVPR (2016)
  51. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Object detectors emerge in deep scene CNNs. In: ICLR (2015)
  52. Zhu, J., Mao, J., Yuille, A.L.: Learning from weakly supervised data by the expectation loss SVM (e-SVM) algorithm. In: NIPS (2014)

补充材料

在本节中,我们提供弱定位过程的技术细节(第3.1节),并指定如何导出具有小视野的网络(第4.3节)。

定位网络

种子损失SEC依赖于弱的定位提示。 正如在最近的许多论文 [22, 50, 32, 3] 中所指出的,可以通过利用训练用于解决图像分类任务的深度卷积神经网络来产生定位提示。 我们使用两种不同的方法,一种用于定位前景类,另一种用于背景类。

具体来说,为了定位前景类,我们采用了[50]中的技术。 作为一个基础分类网络,我们使用标准的VGG网络,从公开的模型[33]初始化。 VGG架构略有修改,以使[50]的方法适用。 特别是,我们对VGG实施了以下更改:

  • 最后两个全连接层fc6和fc7由随机初始化的卷积层代替,其具有1024个输出通道和大小为3的内核。

  • 最后一个卷积层的输出后跟一个全局平均池化层,然后是一个带有20个输出的全连接的预测层(PASCAL VOC中的前景语义类的数量)

另外,为了增加网络的最后一个卷积层的空间分辨率,我们将输入大小增加到321x321并省略最后两个最大池化层pool4和pool5。在PASCAL VOC 2012数据集的trainaug部分上使用多标记logistic损失对得到的网络进行微调(我们使用与第4节中相同的优化参数)。然后,网络用于提供特定于类的定位热力图。为了为每个前景类产生定位提示,我们将相应的热力图阈值限制为其最大值的20%,如 [50] 中所提出的那样。结果定位提示被堆叠在一起形成一个弱的定位mask,如图2所示。当不同的类被分配到同一位置时,可能会发生定位提示冲突。我们使用简单的规则来解决这些冲突:在堆叠过程中,占据图像较小部分的类优先于占据图像较大部分的类。

对于定位背景,我们依赖于[32]中的替代技术。 我们还使用VGG作为底层网络。 它被修改为具有大小为321x321的输入分辨率并具有具有20个输出的预测层。 类似于[6],我们还将全连接层fc6和fc7中的输出通道数从4096更改为1024。我们使用与用于定位前景类的网络相同的过程来微调网络。 遵循[32]中基于梯度的程序,我们利用精细网络生成与类无关的显着图。 显着图可能非常嘈杂,因此我们通过中值滤波器使用3×3的窗口使它们平滑。最后,选择每个图像中10%的最不显着位置作为背景提示。

小视野

Deeplab-Large-FOV神经网络通过利用带洞卷积实现了特别宽的视野,这是最近在[23]中的语义图像分割的背景下提出的。为了得到最接近的架构,但是在一个小视野中,我们用标准卷积层替换了带洞卷积。 这导致视野大小的可测量下降:从378x378到211x211。

图9:SEC产生的分割的随机例子(验证集)。

自己的看法

其实一开始想看看SEC的原因是,因为18年的GAIN没有直接得到分割的mask,而是在得到弱定位的热力图之后,将其作为SEC的seed,再训练分割网络。所以当时很奇怪为什么前面看的几篇CAM、Grad-CAM、AE和ACoL没有提到将定位热力图加入到后续分割网络的训练当中。后来回去翻了一下,发现CAM、Grad-CAM和ACoL尽管有些提到弱监督语义分割,但是实验主要还是做的分类和弱监督物体定位,而AE做的语义分割实验是将DeepLab作为基本网络,最终自己得到的分割mask。

然后本文的SEC的想法符合直觉,但是因为我随机场方面没有学习多少,约束到边界的损失就没有怎么看懂。

下面应该是看看两篇弱监督语义分割可能能与GAIN相结合的新方向。

一分一毛,也是心意。