22: Karras 等人 (2022)

Jeremy 以讨论 DDPM/DDIM 实现的改进开始本节课。他探讨了取消整数步长概念,使过程更加连续。然后,他深入研究如何在不将时间步长作为输入的情况下预测图像中的噪声量,并修改 DDIM 步骤以对每张图像使用预测的 alpha bar。

本节课的重点是学习和实现 Karras 等人在 2022 年发表的论文 Elucidating the Design Space of Diffusion-Based Generative Models。该论文使用 预处理 (pre-conditioning) 来确保模型的输入和目标被缩放到单位方差。模型根据输入中存在的噪声量,预测干净图像和噪声的插值版本。

本节课涵盖了各种采样技术,例如 Euler 采样器、Ancestral Euler 采样器和 Heuns 方法。Jeremy 解释了这些方法背后的概念,并演示了如何使用它们来改进采样过程。他强调了理解研究论文中基本概念和技术的重要性,并演示了如何应用这些知识来提高模型性能。

讨论的概念

  • DDPM/DDIM 改进
  • 预测图像中的噪声量
  • 扩散模型的噪声调度
  • 缩放输入和输出图像
  • 单位方差输入和输出的重要性
  • 不同采样器的实现和性能
    • Euler 采样器
    • Ancestral Euler 采样器
    • Heuns 方法
    • LMS 采样器

视频