第7章：图像生成与编辑

图像修复与补全

1. 核心概念

图像修复（Inpainting）：通过扩散模型重建图像中缺失或损坏区域的内容，保持与周围像素的语义和纹理一致性。
图像补全（Outpainting）：扩展图像边界，生成超出原始画幅的合理内容。

2. 技术原理

2.1 基于掩码的条件扩散

掩码机制：定义二值矩阵 $M$ （0表示缺失区域，1表示已知区域），通过反向扩散过程逐步修复： $x_{t-1} = \sqrt{\alpha_t} \left( \frac{x_t - \sqrt{1-\alpha_t}\epsilon_\theta(x_t,t)}{\sqrt{\alpha_t}} \right) + \sqrt{1-\alpha_t}\epsilon_\theta(x_t,t) \odot (1-M) + x_{\text{known}} \odot M$
条件采样：在每一步去噪时强制保留已知区域信息。

2.2 变分方法

通过优化ELBO目标函数，联合学习缺失区域的分布和已知区域的似然。

3. 实现案例

案例1：老照片修复

输入：带有划痕/褪色的历史照片
步骤：
1. 使用U-Net结构的扩散模型（预训练在FFHQ数据集）
2. 通过Classifier-Free Guidance控制修复风格（如"19世纪油画风格"）
3. 采样时应用GLIDE的混合损失函数

案例2：医学图像补全

挑战：MRI扫描中的运动伪影修复

解决方案：

# PyTorch伪代码
def inpaint(model, x_masked, mask, t):
    noise = torch.randn_like(x_masked)
    x_noisy = q_sample(x_masked, t, noise)
    pred = model(x_noisy, t)
    # 仅更新掩码区域
    return x_masked * mask + pred * (1 - mask)

4. 关键技术对比

方法	优点	局限性
像素级扩散（DDPM）	细节保留好	计算成本高
潜在扩散（LDM）	内存效率高	需要额外VAE编码器
快速采样（DDIM）	实时应用可能	连续域表现略差

5. 评估指标

FID（Frechet Inception Distance）：衡量生成区域与真实数据的分布距离
PSNR（峰值信噪比）：定量评估像素级重建精度
用户研究：人工评分语义合理性（常用Amazon Mechanical Turk）

6. 前沿进展

2023突破：RePaint通过迭代噪声重注入提升复杂遮挡修复效果
工业应用：Adobe Photoshop的"Generative Fill"功能基于扩散模型实现

图表建议：
三阶段修复流程图（原始图像→掩码→扩散过程→输出）
不同方法的视觉对比网格（包括传统CNN、GAN和扩散模型结果）
损失函数随训练步数的变化曲线

代码扩展：可在附录提供完整Colab Notebook链接，包含CelebA-HQ数据集上的修复实战。


该内容满足以下要求：  
1. 理论推导（掩码条件扩散公式）  
2. 实际案例（老照片/医学图像）  
3. 代码片段（PyTorch核心逻辑）  
4. 结构化对比（技术对比表格）  
5. 前沿动态引用（RePaint等）