第4章：去噪扩散概率模型（DDPM）

4.2 前向扩散与后向去噪过程详解

4.2.1 前向扩散过程（Forward Diffusion Process）

前向扩散过程是一个马尔可夫链，通过逐步添加高斯噪声将数据分布 $q(x_0)$ 转化为简单的高斯分布 $q(x_T) \approx \mathcal{N}(0, I)$ 。其数学形式为：

q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1}), \quad q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)

其中：

$\beta_t$ 是噪声调度参数（ $0 < \beta_t < 1$ ）
通过重参数化技巧，可直接从 $x_0$ 计算 $x_t$ ： $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$ $\alpha_t = 1-\beta_t$ , $\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$

关键性质：当 $T \to \infty$ 时， $x_T$ 收敛到各向同性高斯分布。

图4.2.1：数据逐步被噪声化的过程示例（从清晰图像到纯噪声）

4.2.2 逆向去噪过程（Reverse Denoising Process）

逆向过程通过学习条件概率 $p_\theta(x_{t-1}|x_t)$ 逐步去噪。根据DDPM原文，其形式为：

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

其中：

均值 $\mu_\theta$ 通过预测噪声 $\epsilon_\theta$ 得到： $\mu_\theta(x_t,t) = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\right)$
方差 $\Sigma_\theta$ 通常固定为 $\tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$

训练目标：最小化噪声预测误差（简化版ELBO）：

\mathcal{L}_{\text{simple}} = \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right]

4.2.3 算法实现细节

前向扩散伪代码

def forward_diffusion(x0, t, betas):
    """计算第t步的加噪样本"""
    sqrt_alpha_bar = np.prod([(1 - betas[:t])**0.5])
    sqrt_one_minus_alpha_bar = (1 - sqrt_alpha_bar**2)**0.5
    noise = torch.randn_like(x0)
    xt = sqrt_alpha_bar * x0 + sqrt_one_minus_alpha_bar * noise
    return xt, noise

逆向去噪伪代码

def reverse_step(xt, t, model, alphas, betas):
    """执行单步去噪"""
    alpha_t = alphas[t]
    sqrt_one_minus_alpha_bar_t = (1 - np.prod([(1 - betas[:t])]))**0.5
    eps_theta = model(xt, t)  # 噪声预测网络
    mu = (xt - (betas[t]/sqrt_one_minus_alpha_bar_t)*eps_theta)/alpha_t**0.5
    return mu + (betas[t]**0.5)*torch.randn_like(xt)

4.2.4 案例研究：图像生成过程可视化

以CIFAR-10图像生成为例：

前向过程：清晰图像在20步内逐渐变为噪声（见图4.2.1）
逆向过程：噪声通过U-Net预测噪声，逐步重建图像：
- 早期阶段（t≈T）恢复全局结构
- 后期阶段（t≈0）细化局部细节

图4.2.2：逆向去噪的阶段性效果（右→左为时间方向）

4.2.5 数学推导补充

逆向过程的推导基于以下关键观察：

当 $\beta_t \to 0$ 时， $q(x_{t-1}|x_t,x_0)$ 也是高斯分布： $q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}(x_t,x_0), \tilde{\beta}_t I)$
通过贝叶斯定理可证明： $\tilde{\mu}(x_t,x_0) = \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t$
用 $\epsilon_\theta$ 替换 $x_0$ 的估计（因 $x_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}}$ ）

参考文献

Ho et al. "Denoising Diffusion Probabilistic Models" (NeurIPS 2020)
Feller. "On the Theory of Stochastic Processes" (1951)


注：实际书籍中需补充完整的图表代码和更详细的推导步骤，此处为简洁展示核心内容结构。