25: 潜在扩散

在这系列的最后一课中，Johno 首先向我们展示了如何将声音转换为图片，然后利用我们在本课程中学到的知识来生成音频！他使用这种方法构建并演示了一个非常有效的鸟叫声生成器。

然后 Jeremy 通过展示如何使用变分编码器中的潜在变量作为普通扩散模型中的“像素”，总结了“从零开始实现 Stable Diffusion”这一主题。他还为学生们提出了一个有趣的后续想法：如果你将潜在变量用于其他目的，比如分类模型呢？也许这会开启全新的可能性世界，例如基于潜在变量的 FID、基于潜在变量的感知损失，以及新的扩散引导方法！