25: 潜在扩散

在这系列的最后一课中,Johno 首先向我们展示了如何将声音转换为图片,然后利用我们在本课程中学到的知识来生成音频!他使用这种方法构建并演示了一个非常有效的鸟叫声生成器。

然后 Jeremy 通过展示如何使用变分编码器中的潜在变量作为普通扩散模型中的“像素”,总结了“从零开始实现 Stable Diffusion”这一主题。他还为学生们提出了一个有趣的后续想法:如果你将潜在变量用于其他目的,比如分类模型呢?也许这会开启全新的可能性世界,例如基于潜在变量的 FID、基于潜在变量的感知损失,以及新的扩散引导方法!

视频

课程资源