生成式对抗网络-深度学习: 智能时代的核心驱动力量在线阅读

语速1.0: 2.0

进度0:

生成式对抗网络

在第7章中，玻尔兹曼机被当作一个生成模型进行了介绍，当输出被钳制到一个它已训练识别的类型中，并且其活动模式向下渗透到输入层时，就可以产生新的输入样本。伊恩·古德费洛（Ian Goodfellow）、约书亚·本吉奥（Yoshua Bengio）和他们在蒙特利尔大学的同事们表示，可以训练前馈网络，在对抗的背景（adversarial context）下生成更好的样本。^[22] 一个生成卷积网络可以通过尝试欺骗另一个卷积神经网络来训练生成优质的图像样本，后者必须决定一个输入的图像是真实的还是虚假的。生成网络的输出被用来作为一个经过训练的判别卷积网络（discriminative convolutional network）的输入，后者只给出一个单一的输出：如果输入是真实图像，就返回1，否则返回0。这两个网络会相互竞争。生成网络试图增加判别网络的错误率，而判别网络则试图降低自身的错误率。由这两个目标之间的紧张关系产生的图像，拥有令人难以置信的照片级的真实感（见图9–5）。^[23]

深度学习为图片做标注

图9-4 深度学习为图片做标注。顶部的一组图片说明了分析照片的步骤。ConvNet（CNN）在第一步中标记了照片中的对象，并将其传递给循环神经网络（RNN）。RNN被训练输出适当的英文单词串。底部的四组图片则阐明了进一步细化的过程，即使用注意力（白色云）来表示照片中单词的指示对象。顶图来源：

M. I. Jordan and T. M. Mitchell,“Machine learning: Trends, Perspectives, and Prospects,”Science 349, no. 6245(2015): 255–260, 图2.

底图来源：Xu et al., “Show, Attend and Tell,”2015, rev. 2016, figure1 and 3, https://arxiv.org/pdf/1502.03044.pdf, Coutesy of Kelvin Xu。

别忘了，这些生成的图像是合成的，它们中的对象并不存在。它们是训练集中未标记图像的泛化版本。请注意，生成式对抗网络是无监督的，这使得它们可以使用无限的数据。这些网络还有许多其他应用，包括清除具有超高分辨率的星系天文图片^[24] 中的噪声，以及学习表达富有情感的言语。^[25]

通过慢慢地改变生成式网络的输入向量，有可能逐渐改变图像，使得部件或零碎物品（如窗户）逐渐显现或变成其他物体（如橱柜）。^[26] 更值得关注的是，有可能通过添加和减去表示网络状态的向量以获得图像中对象的混合效果，如图9–6所示。这些实验的意义在于，生成网络对图像中空间的表征，正如我们如何描述场景的各个组成部分。这项技术正在迅速发展，其下一个前沿领域是生成逼真的电影。通过训练一个反复演绎的生成式对抗网络，与类似玛丽莲·梦露这样的演员参演的电影进行对比，应该有可能创造出已过世的演员出演的新作品。

生成式对抗网络（GAN）

图9-5 生成式对抗网络（GAN）。顶部的示意图展示了一个卷积网络，用于生成一组样本图像，经过训练后可以欺骗判别卷积网络。左边的输入是100维的随机选取的连续值向量，用来生成不同的图像；输入的向量随后激活空间尺度逐层变大的滤波器层。下方的图显示了通过训练来自单个类别照片的生成式对抗网络产生的样本图像。顶图来源：

A. Radford, L. Metz, and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,”图1, arXiv：

1511.06434, https://arxiv.org/pdf/1511.06434.pdf，由Soumiyh Chintala提供；

底图来源：

A. Nguyen, J. Yosinski, Y. Bengio, A.Dosovitskiy, and J. Clune, “Plug&Play Generative Networks: Conditional Iterative Generation of Images in Latent Space,” figure1, https:

arxiv.org/pdf/1612.00005.pdf, 由Ahn Nguyen提供。

生成式对抗网络中的向量算法

图9-6 生成式对抗网络中的向量算法。用面部图片训练的生成式网络的输入混合后，产生了输出（左图），然后通过添加或减去选定的输入向量进行输出，就创建出了混合后的图像（右图）。因为混合是在最高的表征层完成的，所以部位和姿势是无缝接合的，并不会经过变形过程中那样的平均处理。图像改编自：

A. Radford, L.Metz, and S. Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,”fifigure7，arXiv：

1511.06434,https://arxiv.org/pdf/1511.06434/。

这是米兰的时装周，衣着光鲜的模特们带着超凡脱俗的表情在T台上走秀（见图9–7）。时尚界正在经历暗潮涌动：“‘很多工作正在消失，’西尔维娅·文图里尼·芬迪（Silvia Venturini Fendi）在她的时装秀开场前说道，‘机器人会承担旧的工作，但它们唯一无法取代的就是我们的创造力和思维。’”^[27] 现在想象一下经过训练的新一代对抗网络，它们可以生产新款式和高级时装，式样几乎无穷无尽。时尚界可能正处于一个新时代的边缘，而许多其他依赖创意的行业也面临着相同的处境。

2018年米兰的乔治·阿玛尼春夏男装秀