优化方法概述

1. 优化问题的定义

在深度学习中，优化问题通常表示为寻找一组模型参数 $\theta$ ，使得损失函数 $L(\theta)$ 达到最小值：

\theta^* = \argmin_{\theta} L(\theta)

其中：

基于梯度信息进行参数更新：

梯度下降（GD）： $\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)$
随机梯度下降（SGD）：每次使用单个样本或小批量计算梯度
动量法（Momentum）： $v_{t+1} = \gamma v_t + \eta \nabla L(\theta_t)$ $\theta_{t+1} = \theta_t - v_{t+1}$

AdaGrad：对频繁参数使用较小学习率 $\theta_{t+1,i} = \theta_{t,i} - \frac{\eta}{\sqrt{G_{t,ii}+\epsilon}} \nabla L(\theta_{t,i})$
RMSProp：解决AdaGrad学习率衰减过快问题
Adam：结合动量和自适应学习率

Hessian矩阵（二阶优化）：

H_{ij} = \frac{\partial^2 L}{\partial \theta_i \partial \theta_j}

Lipschitz连续性：

\|\nabla L(\theta_1) - \nabla L(\theta_2)\| \leq M\|\theta_1 - \theta_2\|


该内容包含：
1. 优化问题的数学表述
2. 方法分类与公式展示
3. 对比表格便于理解差异
4. 深度学习特有的优化挑战
5. 实际工程建议
6. 关键数学概念补充

需要扩展任何部分（如具体算法实现细节或案例）可随时告知。