文献汇报一

工作概述

策略

  1. 选取策略:按时间顺序,从新到旧依次阅读
  2. 阅读策略:从前往后阅读,重点放在论文提出的方法原理阐释

内容

  本周读了来自nips2018的2篇论文,分别是Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural LanguageIntroVAE: Introspective Variational Autoencoders for
Photographic Image Synthesis
。另外尝试着读Efficient Algorithms for Non-convex Isotonic
Regression through Submodular Optimization
,但我没有读懂这篇论文。

Text-Adaptive Generative Adversarial Networks

摘要

  该论文提出了一种生成式对抗网络TAGANs,可以用自然语言描述操纵图像,即根据文本描述修改图像中某对象的某个视觉方面的属性。之前的方式是合成具有新属性的图像,但会丢失原始图像中和文本描述无关的内容。该方法使用text-adaptive discriminator创建的word-level discriminators可以根据输入文本对各个细粒度的属性独立的分类。该论文代码已开源,传送门

相关工作

  该论文的工作是和conditional image generation methods紧密相关的。有许多工作尝试使用条件变量生成图像,比如cGAN、Attribute2Image、infoGAN。这些工作解决了从纯噪声向量生成新图像的问题。该论文则聚焦于根据给定的文本描述修改图像,类似的工作之前也有,但它们不能很好的保留原始图像中和文本描述无关的内容。因为它们的sentence-level discriminatior提供给生成器的是粗粒的训练反馈。而该论文提出的word-level discriminators可以
区分更为细粒的属性。

网络架构

  $令x,t,\hat{t}$分别代表图像,匹配图像的文本描述和与图像不匹配的文本描述。任务是根据$\hat{t}$操纵$x$,令得到的图像$\hat{y}$匹配$\hat{t}$,同时保存原始图像中与文本描述无关的信息。
alt text

Generator

  生成器是一个编码-解码网络结构。先用encoder对输入图像编码得到特征表示$e$,然后$e$和使用双向GRU对文本描述编码得到的特征表示拼接起来得到$merge$,$merge$经过Residual Block得到的特征表示再和e拼接得到特征表示,将其送入解码器,输出是合成的新图像$\hat{y}$。在训练GRU的过程中使用了Conditional Augmentation Method来平滑文本表示和增加输出的多样性。
  但这样做可能会生成新的背景或者其他不是文本描述中出现的内容。因此,为生成器加以重建损失函数约束。如下所示。

  但对于生成器而言,除非discriminator提供可以将目标视觉属性分类得比较精细的有用反馈,依然难以学习到和文本描述无关属性的表示。因此该论文提出了text-adaptive discriminator

Text-adaptive discriminator

  text-adaptive discriminator的作用是提供给生成器特定的训练信号,以令其产生特定的视觉属性。为了做到一点,text-adaptive discriminator需要使用word-level local discriminators将目标的每一项属性单独分开来。一言以蔽之,该模块可以更精细的判断图像和文本描述匹配程度。
![alt text]
  同生成器一样,判别器依然需要训练双向GRU作为自己的文本编码器。对于每一个词向量$w_i$,也就是文本编码器的第$i$个输出,该论文为其创建一个1D sigmoid local discriminator  $f_{w_i}$,该局部判别器可以判断和$w_i$相关的视觉属性是否存在于图像中。$f_{w_i}$如下所示:
alt text
值得一提的是$W(w_i)和b(w_i)$在开源代码中是通过一层全连接得到的。

  为了得到更好的分类结果,对局部判别器添加了word-level attentions,以期减少不重要的单词对最后得分的影响。权重由如下softmax公式得到,同时最后得分公式亦如下所示:
alt text

  如果考虑到多尺度的图像特征的话,最后得分公式就如下所示:
alt text

  该论文提出的text-adaptive discriminator和已存在的其他方向相比由如下优点:
1.可以找到文本描述中更细的属性,并在图像中找到对应的属性。
2.可以很容易的使用交叉熵损失函数训练
3.不对图像使用明确的空间注意力(ps:多尺度图像特征的话就用了这个吧),也不需要任何手动调整的超参数。

GAN objective

  判别器和生成器的损失函数依次如下:
alt text

alt text

  可以看出判别器损失函数最小化的目的是为了提高判别器的辨识能力,而生成器则是为了提高其合成图片真实性和图片和文本匹配度。

结果展示

alt text

思考

  我是第一次接触这方面的工作,本论文的关键是文本自适应的判别器,该判别器可以根据输入文本生成字符级别的局部判别器,进而对各个细粒度的属性进行独立的分类。只有文本对应的图像会发生变化,同时保持文本无关的部分不会发生改变。除了叹为观止,我没有其他想法了。

Introspective Variational Autoencoders

摘要

  该论文提出了一种新的深度生成模型——自省变分自编码器,用来实现高清图像等高维数据的无条件生成。该模型是VAEs和GANs的一种混合模型,兼有二者的优点。该模型一方面在不引入额外的对抗判别器的情况下,克服了变分自编码器合成图像趋于模糊的问题;另一方面在不使用常用的多阶段多判别器策略下,实现了高分辨率图像合成的稳定训练。实验结果表明,该模型不仅能够稳定生成高分辨率照片级图像,而且在生成模型常用的量化指标上取得了目前最好的结果。论文地址开源代码

背景

变分自编码器(VAEs)

  VAEs希望构建一个从隐变量$z$生成目标数据$x$的模型。VAEs包括两个组成网络:生成器(Generator),负责根据隐变量$z$生成目标数据$x$,和近似推断网络(approximate inference network,i.e.Enoder),负责将数据$x$映射到隐变量$z$。VAEs通过最大化一个置信下界(ELBO)来最大化极大似然概率。如下所示:

Alt text

  VAEs的一个主要局限是生成的图片比较模糊。这常常被归咎于推断模型的弱表示能力、注入的噪声和不合适的逐像素的评价准者(element-wise criteria)。

生成对抗网络(GANs)

  GANs由两个玩极大极小博弈的模块组成,生成器从先验分布$P(z)$采样得到$G(z)$,试图骗过判别器$D(x)$,判别器$D(x)$则试图区分生成的样本和来自训练数据的样本。学习目标如下:

Alt text

  GANs往往可以生成清晰的图像,但很难训练,尤其是在生成高分辨率图像的时候,训练过程不稳定并且容易发生模型崩塌。

Hybrid Model of VAEs and GANs

  生成对抗网络和变分自编码模型的混合模型,往往包括三部分:完成数据空间和隐变量空间之间相互映射的编码器和解码器,再加上一个可以对变量空间加上对抗约束的判别器。

相关工作

  近些年有许多生成模型被提出来并被广泛研究,比如autoregressive models, VAEs, GANs, real NVP, GMMNs。这些模型在多种任务上取得了很大的成功,比如无条件或有条件图像合成,图像到图像转换,图像重建,语音合成。其中最突出的两个模型是VAEs和GANs。VAEs理论优雅且易于训练,具有很好的流行表示(manifold representations)但会产生缺乏细节的模糊图像。这可能是因为其训练原则令其对训练数据点赋予高概率,却不能确保对模糊点赋予低概率。GANs往往可以生成清晰的图像,但很难训练,尤其是在生成高分辨率图像的时候,训练过程不稳定并且容易发生模型崩塌。这可能是因为判别器太轻易就能把生成数据和真实数据区分开。
  针对这些挑战,有许多方法被提出来了。LAPGANStackGAN在拉普拉斯金字塔内训练一堆GANs,从粗略到精细的方式生成高分辨率图像。StackGAN-v2HGDAN引入了树状结构的多尺寸判别器。PGGAN通过将高分辨率图像分解,从低分辨率出发,分多个阶段使用多个判别器逐步合成高分辨率图像。这种方法增加了模型的训练复杂性。
  另外,许多工作致力于联合VAEsGANsAAE在隐变量空间进行判别,来使后验概率匹配先验概率,目的是最大化极大似然概率。ALIBiGAN则将数据空间和隐变量空间联合起来做判别。混合模型往往拥有更复杂的网络架构看,并且相比GANs而言图像生成质量较差。

alt text

  该论文提出了自省变分自编码器,所谓自省是指,该模型可以自己评估生成图片和真实图片的差异,并据此改进自身。在训练阶段,推断模型试图最小化真实样本的后验概率和先验概率分布差异,最大化生成样本的后验概率和先验概率的分布差异,而生成模型试图最小化生成样本和真实样本的差异来误导推断模型。该模型,对于真实样本来说,表现为一个标准的VAEs,对于生成样本,表现为GANs。该模型不需要额外的判别器,推断模型担当了这一角色,和其他混合模型相比,减少了模型复杂度。
该论文贡献如下:
1.以一种自省的方式训练VAEs,模型自身可以评估生成样本和真实样本的差异,不需要引入额外的判别器。
2.提出了一种单流单阶段对抗模型,更轻松更高效的合成高分辨率图像。
3.该论文提出的方法联合了VAEsGANs的优点。

方法

  除了表现出类似GANs的对抗学习之外,推断模型和生成模型还需要联合训练来保留VAEs的优点。VAEs的训练目标包括两部分:一个对数似然项$L_{AE}$和一个先验正则项$L_{REG}$,它们的负数形式如下:

Alt text

  $L_(AE)$使概率自动编码器中的重建损失,$L_{REG}$促使编码器令近似后验概率分布$q_{\varphi}(z|x)$尽量匹配先验概率分布$p(z)$。

Adversarial distrubution matching

  为了令生成样本的分布匹配训练数据的真实分布。该论文使用$L_{REG}$作为对抗训练损失函数。对于真实样本而言,推断模型需要最小化$L_{REG}$,令真实数据$x$的后验概率$q_{\varphi}(z|x)$尽量匹配先验概率分布$p(z)$;对于生成样本,推断模型则需要最大化$L_{REG}$,;令生成样本$G(z^{‘})$的后验概率${q_\varphi}(z|G(z^{‘}))$偏离先验分布$p(z)$,$z^{‘}$是从分布$p(z)$中采样得到的。相对的,生成器被训练产生具有很小的$L_{REG}$的生成样本$G(z^{‘})$。
  对于推断模型$E$和生成模型$G$,损失函数如下:

Alt text

Introspective variational inference

  在推断模型和生成模型之间引入了对抗学习后,可以产生更真实的图像。但模型的训练过程仍然有着GANs的缺点,即训练不稳定和模型崩塌,为此需要引入IntroVAE,以一种自省的方式,联合GANsVESs
  解决方案极其简单,只需要将对抗目标公式(5)、公式(6)和VAEs的置信下界联合起来。推断模型$E$和生成模型$G$的训练目标被重新阐释如下:

Alt text

  加上了重建损失$L_{AE}$,相当于在推断模型和生成模型之间搭建了一座桥梁,也产生了一种特定的GANsVESs的混合模型。对于真实样本来说,训练目标塌缩为一个VAEs的置信下界目标,因此保留了VAEs的优点;对于生成样本$G(z)$,训练目标推动推断模型和生成模型进行最大最小博弈,也令生成器产生的图像更真实。

Training IntroVAE networks

Alt text

  同原始VAEs,作者选择中心各向同性高斯$N(0,1)$(centered isotropic multivariate Gaussian)作为隐变量$z$的先验分布$p(z)$。如上图所示,推断模型$E$拥有两个输出变量$\mu$和$\sigma$,因此后验概率分布$q_{\varphi}(z|x) = N(z;\mu,{\sigma}^2)$。生成器$G$的输入$z$使用一种重参数化的技巧从该后验概率分布中采样得到:$z = \mu + \sigma\bigodot\epsilon, \epsilon服从N(0,1)$。在这种设定下,KL散度$L_{REG}$对N个样本,计算公式如下:

Alt text

  对于公式(7)(8)中重建损失$L_{AE}$,选择均方差损失函数:

Alt text

  如上图所示,有两种样本,一类是重建样本$x_r$,另一类是生成样本$x_p$。来自$p(z)$和$q_{\varphi}(z|x)$的两类样本,都用来训练模型,可以对模型学习更具有表示能力的隐编码和合成更真实的样本,提供更有用的信号。推断模型$E$和生成器$G$最终的损失函数分别如下:

Alt text

Alt text

训练过程如下所示:

Alt text

思考

  我认为这篇论文的巧妙之处在于,在VAEs的基础上,转换VAEs的训练对象(ELOB),令其对真实样本和生成样本,分别表现为VAEsGANs