Introspective Variational Autoencoders

摘要

  该论文提出了一种新的深度生成模型——自省变分自编码器,用来实现高清图像等高维数据的无条件生成。该模型是VAEs和GANs的一种混合模型,兼有二者的优点。该模型一方面在不引入额外的对抗判别器的情况下,克服了变分自编码器合成图像趋于模糊的问题;另一方面在不使用常用的多阶段多判别器策略下,实现了高分辨率图像合成的稳定训练。实验结果表明,该模型不仅能够稳定生成高分辨率照片级图像,而且在生成模型常用的量化指标上取得了目前最好的结果。论文地址开源代码

背景

变分自编码器(VAEs)

  VAEs希望构建一个从隐变量$z$生成目标数据$x$的模型。VAEs包括两个组成网络:生成器(Generator),负责根据隐变量$z$生成目标数据$x$,和近似推断网络(approximate inference network,i.e.Enoder),负责将数据$x$映射到隐变量$z$。VAEs通过最大化一个置信下界(ELBO)来最大化极大似然概率。如下所示:

Alt text

  VAEs的一个主要局限是生成的图片比较模糊。这常常被归咎于推断模型的弱表示能力、注入的噪声和不合适的逐像素的评价准者(element-wise criteria)。

生成对抗网络(GANs)

  GANs由两个玩极大极小博弈的模块组成,生成器从先验分布$P(z)$采样得到$G(z)$,试图骗过判别器$D(x)$,判别器$D(x)$则试图区分生成的样本和来自训练数据的样本。学习目标如下:

Alt text

  GANs往往可以生成清晰的图像,但很难训练,尤其是在生成高分辨率图像的时候,训练过程不稳定并且容易发生模型崩塌。

Hybrid Model of VAEs and GANs

  生成对抗网络和变分自编码模型的混合模型,往往包括三部分:完成数据空间和隐变量空间之间相互映射的编码器和解码器,再加上一个可以对变量空间加上对抗约束的判别器。

相关工作

  近些年有许多生成模型被提出来并被广泛研究,比如autoregressive models, VAEs, GANs, real NVP, GMMNs。这些模型在多种任务上取得了很大的成功,比如无条件或有条件图像合成,图像到图像转换,图像重建,语音合成。其中最突出的两个模型是VAEs和GANs。VAEs理论优雅且易于训练,具有很好的流行表示(manifold representations)但会产生缺乏细节的模糊图像。这可能是因为其训练原则令其对训练数据点赋予高概率,却不能确保对模糊点赋予低概率。GANs往往可以生成清晰的图像,但很难训练,尤其是在生成高分辨率图像的时候,训练过程不稳定并且容易发生模型崩塌。这可能是因为判别器太轻易就能把生成数据和真实数据区分开。
  针对这些挑战,有许多方法被提出来了。LAPGANStackGAN在拉普拉斯金字塔内训练一堆GANs,从粗略到精细的方式生成高分辨率图像。StackGAN-v2HGDAN引入了树状结构的多尺寸判别器。PGGAN通过将高分辨率图像分解,从低分辨率出发,分多个阶段使用多个判别器逐步合成高分辨率图像。这种方法增加了模型的训练复杂性。
  另外,许多工作致力于联合VAEsGANsAAE在隐变量空间进行判别,来使后验概率匹配先验概率,目的是最大化极大似然概率。ALIBiGAN则将数据空间和隐变量空间联合起来做判别。混合模型往往拥有更复杂的网络架构看,并且相比GANs而言图像生成质量较差。

alt text

  该论文提出了自省变分自编码器,所谓自省是指,该模型可以自己评估生成图片和真实图片的差异,并据此改进自身。在训练阶段,推断模型试图最小化真实样本的后验概率和先验概率分布差异,最大化生成样本的后验概率和先验概率的分布差异,而生成模型试图最小化生成样本和真实样本的差异来误导推断模型。该模型,对于真实样本来说,表现为一个标准的VAEs,对于生成样本,表现为GANs。该模型不需要额外的判别器,推断模型担当了这一角色,和其他混合模型相比,减少了模型复杂度。
该论文贡献如下:
1.以一种自省的方式训练VAEs,模型自身可以评估生成样本和真实样本的差异,不需要引入额外的判别器。
2.提出了一种单流单阶段对抗模型,更轻松更高效的合成高分辨率图像。
3.该论文提出的方法联合了VAEsGANs的优点。

方法

  除了表现出类似GANs的对抗学习之外,推断模型和生成模型还需要联合训练来保留VAEs的优点。VAEs的训练目标包括两部分:一个对数似然项$L_{AE}$和一个先验正则项$L_{REG}$,它们的负数形式如下:

Alt text

  $L_(AE)$使概率自动编码器中的重建损失,$L_{REG}$促使编码器令近似后验概率分布$q_{\varphi}(z|x)$尽量匹配先验概率分布$p(z)$。

Adversarial distrubution matching

  为了令生成样本的分布匹配训练数据的真实分布。该论文使用$L_{REG}$作为对抗训练损失函数。对于真实样本而言,推断模型需要最小化$L_{REG}$,令真实数据$x$的后验概率$q_{\varphi}(z|x)$尽量匹配先验概率分布$p(z)$;对于生成样本,推断模型则需要最大化$L_{REG}$,;令生成样本$G(z^{‘})$的后验概率${q_\varphi}(z|G(z^{‘}))$偏离先验分布$p(z)$,$z^{‘}$是从分布$p(z)$中采样得到的。相对的,生成器被训练产生具有很小的$L_{REG}$的生成样本$G(z^{‘})$。
  对于推断模型$E$和生成模型$G$,损失函数如下:

Alt text

Introspective variational inference

  在推断模型和生成模型之间引入了对抗学习后,可以产生更真实的图像。但模型的训练过程仍然有着GANs的缺点,即训练不稳定和模型崩塌,为此需要引入IntroVAE,以一种自省的方式,联合GANsVESs
  解决方案极其简单,只需要将对抗目标公式(5)、公式(6)和VAEs的置信下界联合起来。推断模型$E$和生成模型$G$的训练目标被重新阐释如下:

Alt text

  加上了重建损失$L_{AE}$,相当于在推断模型和生成模型之间搭建了一座桥梁,也产生了一种特定的GANsVESs的混合模型。对于真实样本来说,训练目标塌缩为一个VAEs的置信下界目标,因此保留了VAEs的优点;对于生成样本$G(z)$,训练目标推动推断模型和生成模型进行最大最小博弈,也令生成器产生的图像更真实。

Training IntroVAE networks

Alt text

  同原始VAEs,作者选择中心各向同性高斯$N(0,1)$(centered isotropic multivariate Gaussian)作为隐变量$z$的先验分布$p(z)$。如上图所示,推断模型$E$拥有两个输出变量$\mu$和$\sigma$,因此后验概率分布$q_{\varphi}(z|x) = N(z;\mu,{\sigma}^2)$。生成器$G$的输入$z$使用一种重参数化的技巧从该后验概率分布中采样得到:$z = \mu + \sigma\bigodot\epsilon, \epsilon服从N(0,1)$。在这种设定下,KL散度$L_{REG}$对N个样本,计算公式如下:

Alt text

  对于公式(7)(8)中重建损失$L_{AE}$,选择均方差损失函数:

Alt text

  如上图所示,有两种样本,一类是重建样本$x_r$,另一类是生成样本$x_p$。来自$p(z)$和$q_{\varphi}(z|x)$的两类样本,都用来训练模型,可以对模型学习更具有表示能力的隐编码和合成更真实的样本,提供更有用的信号。推断模型$E$和生成器$G$最终的损失函数分别如下:

Alt text

Alt text

训练过程如下所示:

Alt text

思考

  我认为这篇论文的巧妙之处在于,在VAEs的基础上,转换VAEs的训练对象(ELOB),令其对真实样本和生成样本,分别表现为VAEsGANs