简介

一篇令人眼前一亮的文章，关键词重要性排序：金字塔GAN>非条件性(随机变量)>单张图像。文章链接。

转载：ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译。

摘要

作者们提出了 SinGAN，这是一个可以从单张自然图像学习的非条件性生成式模型。这个模型可以捕捉给定图像中各个小块内的内在分布，接着就能够生成带有和给定图像中的视觉内容相同的高质量且多样的新图像。SinGAN的结构是多个全卷积GAN组成的金字塔，这些全卷积GAN都负责学习图像中的某个小块中的数据分布，不同的GAN学习的小块的大小不同。这种设计可以让它生成具有任意大小和比例的新图像，这些新图像在具有给定的训练图像的全局结构和细节纹理的同时，还可以有很高的可变性。与此前的从单张图像学习GAN的研究不同的是，作者的方法不仅仅可以学习图像中的纹理，而且是一个非条件性模型（也就是说它是从噪声生成图像的）。作者做实验让人分辨原始图像和生成的图像，结果表明很难区分两者。作者也在多种图像任务中展示了SinGAN的作用。

介绍

生成式对抗网络（GAN）[19]在可视化数据的高维分布建模方面取得了巨大的飞跃。特别是，在特定类数据集（例如，面部[33]，卧室[47]）上进行训练时，无条件GAN在生成真实、高质量的样本方面表现出了显著的成功。但是，捕获多种不同的类别组成的数据集的分布（例如ImageNet[12]）仍然被认为是一个主要的挑战，通常需要根据另一个输入信号对生成过程做限制（条件式生成）[6]或为特定的任务训练模型（例如超分辨率[30]，inpainting[41]，重定向[45]）。

在这里，我们将GAN的使用带入了一个新的领域——从单一的自然图像中进行无条件生成学习。具体来说，我们证明了单个自然图像中patch的内部统计信息通常包含了足够的信息，可以用来学习一个强大的生成模型。我们的单一图像生成模型SinGAN允许我们处理包含复杂结构和纹理的一般自然图像，而不需要依赖于来自同一类别的图像的数据库。这是通过一个由全卷积的轻量级GAN组成的金字塔来实现的，每个GAN负责捕获不同尺度的patch分布。一旦经过训练，SinGAN可以生成各种高质量的图像样本（任意维度），这些样本在语义上与训练图像相似，但包含新的对象配置和结构（图1）。

图1：从单个训练图像中学习的图像生成。我们提出了一种基于单一自然图像的无条件生成模型，使用一种专门的多尺度对抗训练方案，在多个尺度上学习图像中的小块的数据分布；然后，它可以用来生成新的逼真的图像样本，在创建新的对象配置和结构时，保持原始的小块分布。

对单个自然图像中的patch内部分布进行建模长期以来一直被认为是许多计算机视觉任务的重要先验[64]。经典的例子包括去噪[65]，去模糊[39]，超分辨率[18]，去雾[2,15]，图像编辑[37,21,9,11,50]。在这方面最相关的工作是[48]，其中定义了一个双向的patch相似性度量，并对其进行了优化，以保证处理后的图像patch与原始图像的patch是相同的。在这些工作的启发下，在这里，我们展示了如何在一个简单的统一学习框架中使用SinGAN来解决各种图像处理任务，包括从单个图像到图像的绘制、编辑、协调、超分辨率和动画。在这些情况下，我们的模型产生了高质量的结果，保持了训练图像的内部patch统计（见图2和我们的项目网页）。所有的任务都是在相同的生成网络中完成的，没有任何额外的信息或原始训练图像之外的进一步训练。

图2：图像操控。SinGAN 可以用来执行多种图像操控任务，包括：把一张剪贴画转换成具有真实感的照片，编辑、重新排列图像中的物体，让添加到图像中的物体变得协调一致，图像超分辨率，或者从单张输入生成动画。在所有这些例子中，模型都只观察过第一横行的训练图像，所有这些应用也都是以同样的方式训练的，没有额外的模型架构修改或者精细调节。

方法

我们的目标是学习一个无条件生成模型，它可以捕获单个训练图像 $x$ 的内部统计信息。这个任务在概念上与传统的GAN设定类似，只是这里的训练样本是单个图像的patch，而不是来自数据库的整个图像样本。

我们选择不局限于纹理生成，要能够处理更一般的自然图像。这需要在许多不同的尺度上获取复杂图像结构的统计信息。例如，我们希望捕获全局属性，例如图像中大型对象的排列和形状（例如顶部的天空，底部的地面），以及精细的细节和纹理信息。为了实现这一目标，我们生成框架如图4所示，由层次性的patch-GAN（马尔科夫判别器）组成[31,26]，每个patch-GAN负责捕捉 $x$ 的不同尺度的patch分布。这些GAN的接受域小，容量有限，无法记住单个图像。而类似的多尺度体系结构已经在传统的GAN设定环境中得到了探索（例如[28,52,29,52,13,24]），我们是第一个从单一的图像探索它的内部学习。

多尺度结构

我们的模型由一个生成器金字塔组成 $\{G_0,\cdots,G_N\}$，针对 $x:\{x_0,\cdots,x_N\}$ 的图像金字塔进行训练，其中 $x_N$ 是一个因子 $r^n$ 的 $x$ 的的下采样版本，对于某个 $r>1$。每个生成器 $G_n$ 负责生成真实的图像样本，即对应图像 $x_n$ 中的patch分布。这是通过对抗训练实现的，在这种训练中，$G_n$ 学会欺骗一个对应的识别器 $D_n$，该识别器试图将生成的样本中的patch与 $x_n$ 中的patch区分开来。

图像样本的生成从最粗的尺度开始，依次通过所有生成器，直到最细的尺度，在每个尺度注入噪声。所有的生成器和判别器都有相同的接收域，因此在生成过程中捕获的结构尺寸都在减小。在最粗的尺度上是纯生成，即 $G_N$ 映射空间高斯白噪声 $z_N$ 到图像样本 $\tilde x_N$。

$\tilde x_N=G_N(z_N) \tag 1$

这一层的有效接受域通常为图像高度的一半，因此 $G_N$ 生成图像的总体布局和对象的全局结构。每个更小尺度上的生成器 $G_n$（$n<N$）都添加了以前的尺度没有生成的细节。因此，除了空间噪声 $z_n$ 外，每个生成器 $G_n$ 还接受较粗尺度图像的上采样版本，即

$\tilde x_n=G_n(z_n,(\tilde x_{n+1})\uparrow^r),n<N\tag2$

所有的生成器都具有相似的架构，如图5所示。具体来说，噪音 $z_n$ 是添加到图像 $(\tilde x_{n+1})\uparrow^r$，被送入一个卷积序列层。这确保了GAN不会忽略噪声，就像随机条件规划中经常发生的那样[62,36,63]。卷积层的作用是生成 $(\tilde x_{n+1})\uparrow^r$ 中遗漏的细节（残差学习[22,57]）。即 $G_n$ 执行操作

$\tilde x_n=(\tilde x_{n+1})\uparrow^r+\psi_n(z_n+(\tilde x_{n+1})\uparrow^r),$

其中，$\psi_n$ 是一个有着5个Conv-3×3-BatchNorm-LeakyReLU[25]卷积块。我们在最粗糙的尺度上从每个块32个核开始，然后每4个尺度增加2倍。因为生成器是全卷积的，所以我们可以在测试时生成任意大小和宽高比的图像（通过改变噪声图的尺寸）。

训练

我们按顺序训练我们的多尺度体系结构，从最粗糙的尺度到最精细的尺度。一旦每个GAN被训练，它就会被固定下来。我们对第 $n$ 个GAN的训练损失包括一个对抗性公式和一个重构公式，

$\min_{G_n}\max_{D_n}\mathcal L_{\text{adv}}(G_n,D_n)+\alpha\mathcal L_{\text{rec}}(G_n).$

对抗的损失 $\mathcal L_{\text{adv}}$ 惩罚 $x_n$ 的patch分布与生成样本 $\tilde x_n$ 的patch分布之间的距离。重构损失 $\mathcal L_{\text{rec}}$ 保证了一组特定的噪声映射的存在，这些噪声映射可以产生 $x_n$，这是图像处理的一个重要特征（第4节）。

对抗损失

每个生成器 $G_n$ 都与一个马尔可夫链判别器 $D_n$ 对应，该判别器将其输入的每个重叠的patch分类为真或假[31,26]。我们使用WGAN-GP损失[20]来增加训练的稳定性，其中最终的判别分数是patch判别映射的平均值。相对于纹理的单图像GAN（例如[31,27,3]），在这里，我们定义整个图像的损失，而不是随机剪裁（批量大小为1），这允许网络学习边界条件（见补充资料），这是我们设定的一个重要特性。$D_n$ 的架构和 $G_n$ 所包含的网络 $ψ_n$ 相同，所以它的patch大小（网络的接受域）是11×11。

重构损失

我们要确保存在一组特定的输入噪声映射，生成原始图像 $x$。我们具体选择 $\{z_N^{\text{rec}},z_{N-1}^{\text{rec}},\cdots,z_0^{\text{rec}}\}=\{z^\ast,0,\cdots,0\}$，其中 $z^\ast$ 是一些固定的噪声映射（确定一次，在训练时保持固定）。当使用这些噪声映射时，用 $\tilde x^{\text{rec}}_n$ 表示在第 $n$ 个尺度上生成的图像。对于 $n < N$ 时，

$\mathcal L_{\text{rec}}=||G_n(0,(\tilde x^{\text{rec}}_{n+1})\uparrow^r)-x_n||^2\tag 5$

对于 $n=N$，我们使用 $\mathcal L_{\text{rec}}=||G_N(z^\ast)-x_N||^2$。重建图像 $\tilde x^{\text{rec}}_n$ 在训练中还有另一个作用，就是确定噪声 $z_n$ 在每个尺度的标准差 $\sigma_n$。具体来说，我们把 $\sigma_n$ 当成在 $(\tilde x^{\text{rec}}_{n+1})$ 和 $x_n$ 之间的均方误差(RMSE)的比例，表示在该尺度下需要添加的细节量。

结果

定性评价

我们对我们的方法进行了定性和定量的测试，包括城市和自然风景，以及艺术和纹理图像。我们使用的图像取自Berkeley Segmentation 数据集（BSD）[35]、Places[59]和Web。我们总是在最粗糙的尺度设置最小尺寸为25px，并选择尺度的数量 $N$，比例因子 $r$ 尽可能接近4/3。对于所有的结果，（除非另有说明），我们将训练图像调整为最大尺寸250px。

我们生成的随机图像样本的定性示例如图1和图6所示，补充资料中包含了更多的示例。对于每个例子，我们都展示了一些随机样本，它们的宽高比与原始图像相同，并且在每个轴上都有缩小和扩大的尺寸。可以看出，在所有这些情况下，生成的样本描述了新的真实的对象结构和配置，同时保留了训练图像的视觉内容。我们的模型成功地保存了对象的全局结构，例如山脉（图1）、气球或金字塔（图6），以及精细的纹理信息。由于网络的接受域有限（小于整个图像），它可以生成训练图像中不存在的新patch组合。此外，我们注意到，在许多情况下反射和阴影是实际合成，可以在图6、图1和图8的第一个样例看到。注意，SinGAN的架构是与分辨率无关，因此可以用于高分辨率的图像，如图7中所示（见补充资料中4Mpix结果）。在这里，所有尺度的结构都很好地生成了从天空、云和山脉的整体布局，到雪的精细纹理。

图6：随机图像样本。通过对单个图像进行训练，可以生成描述新结构和对象配置的逼真随机图像，同时保留训练图像的patch分布。由于我们的模型是全卷积的，因此生成的图像可能具有任意大小和纵横比。请注意，我们的目标不是图像重定向—我们的图像样本是随机的和优化的，以维护patch分布，而不是保留突出的目标。更多结果和图像重定向方法的定性比较请参见补充资料。

图7：高分辨率图像生成。我们的模型生成的随机样本，训练在243×1024的图像上（右上角）；新的全局结构以及精细的细节被真实地生成。参见补充资料中的4Mpix示例。

测试中尺度数量的影响

我们的多尺度体系结构允许通过选择在测试时开始生成的尺度来控制样本之间的变化量。为了从比例 $n$ 开始，我们把噪声映射固定为 $\{z_N^{\text{rec}},\cdots,z_{n+1}^{\text{rec}}\}$，只对 $\{z_n,\cdots,z_0\}$ 做随机取值。其效果如图8所示。可以看出，在最粗糙的尺度上开始生成（$n = N$），全局结构有可能会发生较大变化。在某些情况下，一个大的突出的物体，如斑马图像的例子中，这可能导致生成不真实的样本。然而，从更细的尺度开始生成，就可以保持全局结构不变，而只改变更细的图像特征（例如斑马的条纹）。参见补充资料获得更多的例子。

图8：从不同的尺度生成（推理时）。我们展示了从给定的 $n$级开始分层生成的效果。对于我们的完整生成方案（$n = N$），最粗糙的输入是随机噪声。为了生成更精细的 $n$，我们插入向下采样的原始图像 $x_n$ 作为该比例的输入。这使得我们可以控制生成结构的尺度，例如，我们可以保持斑马的形状和姿势，只有从 $n=N−1$ 开始生成才能改变其条纹纹理。

训练中尺度数量的影响

图9显示了使用较少的尺度尺度数量的训练效果。用少量的尺度，在最粗糙的水平上有效的接受域更小，只允许捕获精细的纹理。随着尺度数量的增加，出现了更大的支撑结构，全局对象的排列得到了更好的保留。

图9：使用不同数量的尺度进行训练的效果。SinGAN架构中的尺度数量对结果有很大的影响。只有少量比例的模型才能捕获纹理。随着尺度数量的增加，SinGAN成功地捕捉到了更大的结构以及场景中物体的整体布局。

定量评价

为了量化生成图像的真实性以及它们如何捕获训练图像的内部统计数据，我们使用了两个指标:(i) Amazon Mechanical Turk（AMT，亚马逊众包）“真实/虚假”用户研究，(ii)Frechet Inception距离[23]的新单图像版本。

AMT感知研究

我们遵循[26,58]的方案，在两种情况下进行感知实验。

配对（真与假）：研究人员向参与者展示了50个实验序列，每个实验中，一张假图像（由SinGAN生成）与它的真实训练图像进行1秒钟的对比。工作人员被要求挑选出假照片。
非配对（真或假）：工作人员看到一张图片1秒钟，然后被问及这是否是假的。总共有50张真实的图像和50张不相关的假图像被随机分配给每个参与者。

我们对两种类型的生成过程重复了这两个过程:从最粗糙的尺度 $N$ 开始生成，从 $N -1$ 尺度开始生成（如图8所示）。为了量化生成图像的多样性，对于每个训练示例，我们计算每个像素超过100个生成图像的强度值的标准差(std)，在所有像素上取平均值，然后根据训练图像的强度值的std进行标准化。真实的图片是从“places”数据库[59]中随机选取的，来自山脉、丘陵、沙漠和天空的子类别。在这四个测试中，我们有50个不同的参与者。在所有测试中，前10个测试都是包含反馈的教程。结果见表1。

表1：“真/假”AMT测试。我们报告了两个生成过程的混淆率：从最粗糙尺度 $N$ 开始（生成具有大量多样性的样本），从第二个最粗糙尺度 $N-1$ 开始（保留原始图像的全局结构）。在每种情况下，我们都进行了配对研究（真-vs-假图像对显示），和一个未配对的图像显示。方差由bootstrap[14]估计。

正如所预料的那样，在未配对的情况下，混淆的比例总是更大，因此没有可比性。此外，很明显，混淆率随着生成图像的多样性而降低。然而，即使改变了大型结构，我们生成的图像也很难与真实图像区分开来（50%的分数意味着完全混淆了真实图像和虚假图像）。完整的测试图像包含在补充资料中。

单幅图像FID

接下来，我们将量化SinGAN在多大程度上捕获了 $x$ 的内部统计信息。GAN评价的一个常用指标是Frechet Inception Distance（FID）[23]，它测量生成图像的深度特征分布与真实图像的分布之间的偏差。然而，在我们的设置中，我们只有一个真实的图像，并且对它的内部patch统计非常感兴趣。因此，我们提出了单图像FID度量（SIFID）。在Inception网络[49]的最后一个池化层（每个图像一个向量）之后，我们在第二个池化层（图中每个位置一个向量）之前使用卷积层而不是使用激活向量输出的深层特征的内部分布。我们的SIFID是真实图像和生成的样本中这些特征的统计数据之间的FID。

表2：单图像FID（SIFID）。我们将FID指标应用于单个图像，并报告50幅图像的平均分，对于完整的生成（第一行），以及从第二个最粗糙尺度（第二行）开始。与AMT结果的相关性表明，SIFID与人类排名高度一致。

从表2中可以看出，尺度 $N - 1$ 生成的SIFID平均值低于尺度 $N$ 生成的SIFID平均值，这与用户研究结果一致。我们还报告了SIFID分数和假图像的混淆率之间的相关性。请注意，这两者之间存在显著的（反）相关性，这意味着一个小的SIFID通常可以很好地指示出较大的混淆率。成对测试的相关性更强，因为SIFID是成对的措施（它作用于对 $x_n,\tilde x_n$）。

应用

我们将探讨SinGAN在许多图像处理任务中的应用。为此，我们在训练后使用我们的模型，不进行架构更改或进一步调优，并对所有应用采用相同的方法。该思想是利用这样一个事实，即在推理时，SinGAN只能生成与训练图像具有相同patch分布的图像。因此，可以通过在 $n<N$ 的某个尺度将图像（可能是向下采样的版本）注入到生成金字塔中，并通过生成器将其前馈传输，从而使其patch分布与训练图像的patch分布匹配，从而进行操作。不同的注入尺度导致不同的效果。我们考虑以下应用（更多结果和注入尺度见补充资料）。

超分辨率

将输入图像的分辨率提高一个因子 $s$。我们训练我们的模型在低分辨率（LR）图像，重建低损失权重 $α=100$ 和金字塔尺度因子 $r=\sqrt[k]{s},k\in N$。

由于小型结构往往在自然场景[18]的尺度上反复出现，在测试时，我们通过一个 $r$ 因子对LR图像进行上采样，并将其（连同噪声）注入最后一个生成器 $G_0$。我们重复 $k$ 次以获得最终的高分辨率输出。示例结果如图10所示。可以看出，我们重建的视觉性能超过了最先进的内部方法[51,46]，外部方法的目的是PSNR最大化[32]。有趣的是，它可以与外部训练的SR-GAN方法[30]相媲美，尽管它只暴露在一张图像中。在[4]之后，我们在BSD100数据集[35]上比较表3中5种方法的失真程度(RMSE)和感知质量(NIQE[40])是两个在根本上冲突的指标[5]。可以看出，SinGAN在感知质量上非常优秀；其NIQE分数仅略低于SRGAN，其RMSE稍好一些。

图10：超分辨率。当SinGAN被训练在一个低分辨率的图像上时，我们能够进行超分。这是通过迭代地对图像进行采样并将其输入到SinGAN的最精细的比例生成器来实现的。可以看出，SinGAN的图像质量优于SOTA内标法ZSSR[46]和DIP[51]。它也比EDSR[32]好，可以与SRGAN[30]相比，后者是在大型数据集上训练的外部方法。括号中显示了相应的PSNR和NIQE[40]。

表3：超分辨率评估。在[5]之后，我们在BSD100[35]上报告了失真(RMSE)和感知性能（NIQE[40]，越低越好）。可以看出，SinGAN的性能与SRGAN[30]类似。

图画-图像（Paint-to-Image）

将剪贴画转换成逼真的图像。这是通过向下采样剪贴画图像并将其输入一个粗尺度（例如 $N−1$ 或 $N−2$）来实现的。从图2和图11可以看出，我们保留了画面的整体结构，真实地生成了与原图匹配的纹理和高频信息。我们的方法在视觉性能上优于风格迁移方法[38,17]（图11）。

图11：Paint-to-Image。我们在目标图像上训练SinGAN，并在测试时将一个向下采样的图画注入到一个粗糙的水平。我们生成的图像保留了剪贴画的布局和一般结构，同时生成与训练图像匹配的真实纹理和精细细节。著名的风格迁移方法[17,38]在此任务中失败。

协调（Harmonization）

把粘贴的对象与背景图像融为一体。我们在背景图像上训练SinGAN，并在测试时注入原始粘贴对象的下采样版本。在这里，我们将生成的图像与原始背景相结合。从图2和图13可以看出，我们的模型对粘贴对象的纹理进行了裁剪以匹配背景，并且经常比[34]更好地保留了对象的结构。缩放2、3、4通常会在保持对象结构和转移背景纹理之间取得良好的平衡。

图13：协调。我们的模型能够保持粘贴对象的结构，同时调整其外观和纹理。专用的协调方法[34]过度混合对象与背景。

编辑（Editing）

把图像中一个区域的内容复制粘贴到另一个区域后，仍然保持真实的观感。这里，我们再次将复合材料的下采样版本注入到粗糙尺度之一。然后我们将SinGAN在编辑区域的输出与原始图像结合起来。如图2和图12所示，SinGAN重新生成了精细的纹理，并无缝地缝合了粘贴的部分，比Photoshop的Content-Aware-Move（内容感知剪切）效果更好。

图12：编辑。我们从原始图像(a)中复制并粘贴一些patch，然后将编辑后的图像(b)的下采样版本输入到我们的模型的中间层（在(a)上进行预训练）。在生成的图像(d)中，这些局部编辑被转换成连续逼真的结构。(c)与Photoshop的contentaware move比较。

单图像动画（SingleImage Animation）

从一个单一的输入图像创建一个简短的视频剪辑与现实物体的运动。自然图像往往包含重复，这揭示了不同的“快照”在同一动态对象[55]的时间（例如一群鸟的图像揭示了一个鸟的所有翼姿态）。使用SinGAN，我们可以沿着图像中物体的所有表象的表面前进，从而从一个单一的图像合成运动。我们发现，对于许多类型的图像，一个现实的效果是通过 $z$ 空间中的随机漫步实现的，从 $z^{\text{rec}}$ 开始在所有的生成尺度的第一帧（见补充资料视频）。

结论

我们介绍了一个新的非条件生成方案SinGAN，它是从一个单一的自然图像中学习来的。我们展示了它不仅限于纹理的学习能力，并为自然复杂的图像生成多样的真实样本。与外部训练的生成方法相比，内部学习在语义多样性方面存在固有的局限性。例如，如果训练图像包含一条狗，我们的模型将不会生成不同犬种的样本。不过，我们的实验证明，SinGAN可以为广泛的图像处理任务提供一个非常强大的工具。

补充材料地址。

参考文献

[1] Yuki M Asano, Christian Rupprecht, and Andrea Vedaldi. Surprising effectiveness of few-image unsupervised feature learning. arXiv preprint arXiv:1904.13132, 2019.
[2] Yuval Bahat and Michal Irani. Blind dehazing using internal patch recurrence. In 2016 IEEE International Conference on Computational Photography (ICCP), pages 1–9. IEEE, 2016.
[3] Urs Bergmann, Nikolay Jetchev, and Roland Vollgraf. Learning texture manifolds with the periodic spatial GAN. arXiv preprint arXiv:1705.06566, 2017.
[4] Yochai Blau, Roey Mechrez, Radu Timofte, Tomer Michaeli, and Lihi Zelnik-Manor. The 2018 pirm challenge on perceptual image super-resolution. In European Conference on Computer Vision Workshops, pages 334–355. Springer, 2018.
[5] Yochai Blau and Tomer Michaeli. The perception-distortion tradeoff. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6228–6237, 2018.
[6] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096, 2018.
[7] Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A Efros. Everybody dance now. arXiv preprint arXiv:1808.07371, 2018.
[8] Wengling Chen and James Hays. Sketchygan: towards diverse and realistic sketch to image synthesis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9416–9425, 2018.
[9] Taeg Sang Cho, Moshe Butman, Shai Avidan, and William T Freeman. The patch transform and its applications to image editing. In 2008 IEEE Conference on Computer Vision and Pattern Recognition, pages 1–8. IEEE, 2008.
[10] Tali Dekel, Chuang Gan, Dilip Krishnan, Ce Liu, and William T Freeman. Sparse, smart contours to represent and edit images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3511–3520, 2018.
[11] Tali Dekel, Tomer Michaeli, Michal Irani, and William T Freeman. Revealing and modifying non-local variations in a single image. ACM Transactions on Graphics (TOG), 34(6):227, 2015.
[12] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[13] Emily L Denton, Soumith Chintala, Rob Fergus, et al. Deep generative image models using a laplacian pyramid of adversarial networks. In Advances in neural information processing systems, pages 1486–1494, 2015.
[14] Bradley Efron. Bootstrap methods: another look at the jackknife. In Breakthroughs in statistics, pages 569–593. Springer, 1992.
[15] Gilad Freedman and Raanan Fattal. Image and video upscaling from local self-examples. ACM Transactions on Graphics (TOG), 30(2):12, 2011.
[16] Leon Gatys, Alexander S Ecker, and Matthias Bethge. Texture synthesis using convolutional neural networks. In Advances in neural information processing systems, pages 262–270, 2015.
[17] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2414–2423, 2016.
[18] Daniel Glasner, Shai Bagon, and Michal Irani. Superresolution from a single image. In 2009 IEEE 12th International Conference on Computer Vision (ICCV), pages 349–356. IEEE, 2009.
[19] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680, 2014.
[20] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron C Courville. Improved training of wasserstein GANs. In Advances in Neural Information Processing Systems, pages 5767–5777, 2017.
[21] Kaiming He and Jian Sun. Statistics of patch offsets for image completion. In European Conference on Computer Vision, pages 16–29. Springer, 2012.
[22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.
[23] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. GANs trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in Neural Information Processing Systems, pages 6626–6637, 2017.
[24] Xun Huang, Yixuan Li, Omid Poursaeed, John Hopcroft, and Serge Belongie. Stacked generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5077–5086, 2017.
[25] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
[26] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. arXiv preprint, 2017.
[27] Nikolay Jetchev, Urs Bergmann, and Roland Vollgraf. Texture synthesis with spatial generative adversarial networks. Workshop on Adversarial Training, NIPS, 2016.
[28] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of GANs for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.
[29] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. arXiv preprint arXiv:1812.04948, 2018.
[30] Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al. Photorealistic single image super-resolution using a generative adversarial network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4681–4690, 2017.
[31] Chuan Li and Michael Wand. Precomputed real-time texture synthesis with markovian generative adversarial networks. In European Conference on Computer Vision, pages 702–716. Springer, 2016.
[32] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, and Kyoung Mu Lee. Enhanced deep residual networks for single image super-resolution. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 136–144, 2017. 7
[33] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of the IEEE International Conference on Computer Vision, pages 3730–3738, 2015.
[34] Fujun Luan, Sylvain Paris, Eli Shechtman, and Kavita Bala. Deep painterly harmonization. arXiv preprint arXiv:1804.03189, 2018.
[35] David Martin, Charless Fowlkes, Doron Tal, and Jitendra Malik. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In null, page 416. IEEE, 2001.
[36] Michael Mathieu, Camille Couprie, and Yann LeCun. Deep multi-scale video prediction beyond mean square error. arXiv preprint arXiv:1511.05440, 2015.
[37] Roey Mechrez, Eli Shechtman, and Lihi Zelnik-Manor. Saliency driven image manipulation. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1368–1376. IEEE, 2018.
[38] Roey Mechrez, Itamar Talmi, and Lihi Zelnik-Manor. The contextual loss for image transformation with non-aligned data. In Proceedings of the European Conference on Computer Vision (ECCV), pages 768–783, 2018.
[39] Tomer Michaeli and Michal Irani. Blind deblurring using internal patch recurrence. In European Conference on Computer Vision, pages 783–798. Springer, 2014.
[40] Anish Mittal, Rajiv Soundararajan, and Alan C Bovik. Making a completely blind image quality analyzer. IEEE Signal Processing Letters, 20(3):209–212, 2013.
[41] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, and Alexei A Efros. Context encoders: Feature learning by inpainting. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2536–2544, 2016.
[42] Guim Perarnau, Joost van de Weijer, Bogdan Raducanu, and Jose M Alvarez. Invertible conditional GANs for image editing. arXiv preprint arXiv:1611.06355, 2016.
[43] Patsorn Sangkloy, Jingwan Lu, Chen Fang, Fisher Yu, and James Hays. Scribbler: Controlling deep image synthesis with sketch and color. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5400–5409, 2017.
[44] Assaf Shocher, Shai Bagon, Phillip Isola, and Michal Irani. Ingan: Capturing and remapping the “DNA” of a natural image. arXiv preprint arXiv: arXiv:1812.00231, 2018.
[45] Assaf Shocher, Shai Bagon, Phillip Isola, and Michal Irani. InGAN: Capturing and Remapping the “DNA” of a Natural Image. International Conference on Computer Vision (ICCV), 2019.
[46] Assaf Shocher, Nadav Cohen, and Michal Irani. Zero-Shot Super-Resolution using Deep Internal Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3118–3126, 2018.
[47] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus. Indoor segmentation and support inference from rgbd images. In European Conference on Computer Vision, pages 746–760. Springer, 2012.
[48] Denis Simakov, Yaron Caspi, Eli Shechtman, and Michal Irani. Summarizing visual data using bidirectional similarity. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1–8. IEEE, 2008.
[49] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015.
[50] Tal Tlusty, Tomer Michaeli, Tali Dekel, and Lihi ZelnikManor. Modifying non-local variations across multiple views. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6276–6285, 2018.
[51] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Deep image prior. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[52] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional GANs. arXiv preprint arXiv:1711.11585, 2017.
[53] Xiaolong Wang and Abhinav Gupta. Generative image modeling using style and structure adversarial networks. 2016.
[54] Wenqi Xian, Patsorn Sangkloy, Varun Agrawal, Amit Raj, Jingwan Lu, Chen Fang, Fisher Yu, and James Hays. Texturegan: Controlling deep image synthesis with texture patches. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[55] Xuemiao Xu, Liang Wan, Xiaopei Liu, Tien-Tsin Wong, Liansheng Wang, and Chi-Sing Leung. Animating animal motion from still. ACM Transactions on Graphics (TOG), 27(5):117, 2008.
[56] Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S Huang. Generative image inpainting with contextual attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5505–5514, 2018.
[57] Kai Zhang, Wangmeng Zuo, Yunjin Chen, Deyu Meng, and Lei Zhang. Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising. IEEE Transactions on Image Processing, 26(7):3142–3155, 2017.
[58] Richard Zhang, Phillip Isola, and Alexei A Efros. Colorful image colorization. In European conference on computer vision, pages 649–666. Springer, 2016.
[59] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, and Aude Oliva. Learning deep features for scene recognition using places database. In Advances in neural information processing systems, pages 487–495, 2014.
[60] Yang Zhou, Zhen Zhu, Xiang Bai, Dani Lischinski, Daniel Cohen-Or, and Hui Huang. Non-stationary texture synthesis by adversarial expansion. arXiv preprint arXiv:1805.04487, 2018.
[61] Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨ Alexei A Efros. Generative visual manipulation on the natural image manifold. In European Conference on Computer Vision (ECCV), pages 597–613. Springer, 2016.
[62] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. In IEEE International Conference on Computer Vision, 2017.
[63] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In Advances in Neural Information Processing Systems, pages 465–476, 2017.
[64] Maria Zontak and Michal Irani. Internal statistics of a single natural image. In CVPR 2011, pages 977–984. IEEE, 2011.
[65] Maria Zontak, Inbar Mosseri, and Michal Irani. Separating signal from noise using patch recurrence across scales. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1195–1202, 2013.

RexKing6's Note

《SinGAN: Learning a Generative Model from a Single Natural Image》笔记

简介

摘要

介绍

相关工作

单图像生成模型

生成式图像编辑模型

方法