第6章：离散扩散模型与改进

参数化与模型结构优化（U-Net结构等）

1. 模型结构优化的核心目标

扩散模型的性能高度依赖于神经网络架构的设计，优化目标包括：

高效建模能力：准确拟合数据分布与噪声分布的转换关系
计算效率：降低训练和推理时的计算开销
信息保留：在特征空间中保持输入数据的语义信息

2. U-Net架构的扩散模型适配

2.1 基础结构

# 典型U-Net结构代码框架（PyTorch示例）
class DiffusionUNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Sequential(
            DownsampleBlock(in_c=3, out_c=64),
            DownsampleBlock(in_c=64, out_c=128),
            DownsampleBlock(in_c=128, out_c=256)
        )
        self.bottleneck = ResBlock(256)
        self.decoder = nn.Sequential(
            UpsampleBlock(in_c=256, out_c=128),
            UpsampleBlock(in_c=128, out_c=64),
            UpsampleBlock(in_c=64, out_c=3)
        )
        self.time_embed = nn.Linear(1, 256)  # 时间步嵌入

2.2 关键改进组件

时间步嵌入（Time Embedding）：
- 将扩散步数t映射为高维向量
- 通过全连接层注入到每个残差块中
注意力机制：
- 在bottleneck层加入自注意力模块
- 增强全局特征建模能力
多尺度特征融合：
- 跳跃连接（Skip Connection）保留高频细节
- 特征图拼接（Concatenation）替代简单相加

3. 参数化策略优化

3.1 噪声预测参数化

扩散模型通常预测噪声而非直接预测去噪图像：

\epsilon_\theta(x_t, t) \approx \epsilon

其中 $\epsilon$ 是真实噪声

3.2 方差学习

固定方差：DDPM原始方案
可学习方差：改进版DDPM的 $\Sigma_\theta(x_t, t)$

4. 结构改进案例研究

4.1 3D U-Net在视频生成中的应用

class VideoDiffusion3DUNet(nn.Module):
    def __init__(self):
        self.conv3d = nn.Conv3d(in_c, out_c, kernel=(1,3,3))
        self.temporal_attn = TemporalAttention(dim=256)

4.2 轻量化设计

深度可分离卷积
通道注意力机制（SE Block）
知识蒸馏压缩模型

5. 性能对比实验

模型变体	FID↓	采样速度↑	参数量
基础U-Net	12.3	2.1it/s	110M
+注意力机制	9.7	1.8it/s	135M
轻量化版本	13.5	3.5it/s	45M

6. 结构优化趋势

Transformer混合架构：
- 在高层特征使用Transformer块
- 例如DiT（Diffusion Transformer）
动态结构：
- 根据输入复杂度调整网络深度
- 条件计算（Conditional Computation）
神经架构搜索：
- 自动搜索最优模块组合
- 基于强化学习或进化算法

图表辅助说明

图示：改进的U-Net架构在扩散模型中的应用，包含时间嵌入和注意力模块

案例研究：Stable Diffusion中的VAE-U-Net混合结构通过将潜在空间建模与像素空间建模分离，实现了高清图像生成的高效计算。