第6章:Transformer与注意力机制
注意力机制的起源
1. 背景与动机
- 序列建模的挑战:传统RNN/LSTM在处理长序列时存在梯度消失/爆炸问题,且难以并行化
- 信息瓶颈问题:固定长度的上下文向量(如Seq2Seq模型)无法有效保留长距离依赖关系
- 人类认知的启发:模仿人类视觉注意力机制,动态聚焦关键信息
2. 早期发展历程
- 2014年里程碑:Bahdanau首次在神经机器翻译中提出"软注意力"机制(《Neural Machine Translation by Jointly Learning to Align and Translate》)
- 关键创新点:
- 对齐模型(Alignment Model):计算源语言与目标语言单词的相关性
- 上下文向量动态生成:替代固定长度的中间表示
- 后续演进:
- Luong注意力(2015):提出全局/局部注意力机制
- 自注意力(Self-Attention):Vaswani在Transformer中系统化发展
3. 核心数学形式
注意力函数的三要素:
Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V
- 查询(Query):当前需要计算表示的项
- 键(Key):被比较的项
- 值(Value):需要聚合的信息
- 缩放因子:√d_k防止点积过大导致梯度消失
4. 与经典方法的对比
| 特性 | 注意力机制 | CNN | RNN |
|---|---|---|---|
| 长距离依赖 | 直接建模 | 需要多层叠加 | 容易丢失早期信息 |
| 计算复杂度 | O(n²) | O(n·k) | O(n) |
| 并行能力 | 完全并行 | 局部并行 | 序列依赖 |
| 可解释性 | 可可视化注意力权重 | 需特殊方法 | 难以解释 |
5. 关键突破意义
- 动态权重分配:每个输出位置自适应选择相关输入位置
- 端到端学习:注意力权重通过反向传播自动优化
- 跨模态应用:为视觉-语言等多模态任务奠定基础
经典论文线索:从神经图灵机(2014)→指针网络(2015)→Transformer(2017)的演进过程体现了注意力机制从辅助工具到核心架构的转变。
6. 典型应用雏形
- 机器翻译:源语言和目标语言的动态对齐
- 图像描述生成:视觉注意力聚焦图像区域
- 语音识别:对声学特征的动态关注
(注:本章后续将详细展开Transformer如何将注意力机制发展为通用架构范式)
这个Markdown内容包含:
1. 技术演进的逻辑链条
2. 核心公式的直观解释
3. 对比表格增强理解
4. 关键突破的提炼
5. 历史文献线索
6. 向后续内容的自然过渡
需要补充代码实现示例或更详细的数学推导可随时告知调整。