第5章：循环神经网络（RNN）

LSTM与GRU模型

1. 长短期记忆网络（LSTM）

1.1 LSTM的核心思想

解决梯度消失问题：传统RNN难以捕获长期依赖，LSTM通过门控机制保留长期记忆
细胞状态（Cell State）：贯穿整个链的信息高速公路，选择性记忆关键历史信息
三阶段门控机制：
- 遗忘门（Forget Gate）：决定丢弃哪些历史信息
- 输入门（Input Gate）：确定新信息的存储
- 输出门（Output Gate）：控制当前时刻的输出

1.2 LSTM的数学表达

# 典型LSTM单元公式（简化版）
ft = σ(Wf·[ht-1, xt] + bf)  # 遗忘门
it = σ(Wi·[ht-1, xt] + bi)  # 输入门
C̃t = tanh(WC·[ht-1, xt] + bC)  # 候选记忆
Ct = ft*Ct-1 + it*C̃t  # 更新细胞状态
ot = σ(Wo·[ht-1, xt] + bo)  # 输出门
ht = ot*tanh(Ct)  # 当前输出

2. 门控循环单元（GRU）

2.1 GRU的简化设计

双门控结构：合并LSTM的遗忘门与输入门为更新门（Update Gate）
重置门（Reset Gate）：控制历史信息对当前候选状态的影响程度
参数更少：相比LSTM减少1/3参数，训练效率更高

2.2 GRU的数学表达

# GRU单元计算公式
zt = σ(Wz·[ht-1, xt])  # 更新门
rt = σ(Wr·[ht-1, xt])  # 重置门
h̃t = tanh(W·[rt*ht-1, xt])  # 候选状态
ht = (1-zt)*ht-1 + zt*h̃t  # 最终状态

3. LSTM与GRU对比

特性	LSTM	GRU
门控数量	3个（遗忘/输入/输出）	2个（更新/重置）
参数量	较多	较少
训练速度	较慢	较快
长期依赖处理能力	优秀	良好
工业应用频率	传统方案首选	资源受限场景更受欢迎

4. 实战建议

优先尝试GRU：当计算资源有限或数据量较小时
超参数调整重点：
- 隐藏层维度（通常128-512）
- Dropout率（0.2-0.5防止过拟合）
初始化技巧：
- 正交初始化（Orthogonal Initialization）
- 偏置项初始化：遗忘门偏置设为1（促进初始记忆保留）

5. 经典应用案例

机器翻译：Google早期NMT系统采用LSTM
语音识别：GRU在实时系统中表现优异
股票预测：LSTM捕捉长期市场趋势

学术前沿：2023年研究发现，在超大规模预训练场景下，LSTM的严格门控设计相比Transformer的自注意力机制仍具有特定优势（如处理超长序列时的内存效率）。

LSTM与GRU结构对比图

图：LSTM（左）与GRU（右）的内部结构对比，红色箭头标注关键差异点


注：实际使用时需补充以下内容：
1. 替换`path_to_image.png`为真实的对比示意图路径
2. 扩展代码示例为完整可运行版本（含数据加载和训练循环）
3. 添加具体案例的参考文献（如Google NMT论文等）