第6章:Transformer与注意力机制
注意力机制的起源
1. 早期研究背景
注意力机制的概念最早可追溯到认知神经科学领域。20世纪90年代,研究者发现人类视觉系统具有选择性注意的特性——大脑会优先处理输入信息中的关键部分而忽略次要信息。这一发现启发了计算机科学家尝试在机器学习模型中模拟类似机制。
2. 机器翻译中的初步尝试
- 1997年:Bahdanau等人首次在神经机器翻译(NMT)中提出"软注意力"概念
- 核心思想:允许解码器动态访问编码器的所有隐藏状态,而非仅依赖最后一个隐藏状态
- 数学表达:通过计算注意力权重αij实现:其中a()是注意力函数,通常为简单的神经网络
α<sub>ij</sub> = softmax(e<sub>ij</sub>) e<sub>ij</sub> = a(s<sub>i-1</sub>, h<sub>j</sub>)
3. 注意力机制的关键突破
| 年份 | 贡献者 | 核心进展 |
|---|---|---|
| 2014 | Bahdanau等 | 首次将注意力用于神经机器翻译 |
| 2015 | Luong等 | 提出全局/局部注意力机制 |
| 2016 | Google团队 | 在图像描述生成中应用注意力 |
4. 从RNN到纯注意力架构
传统注意力机制存在两个主要局限:
- 必须依赖RNN的序列处理特性
- 计算复杂度随序列长度呈平方增长
2017年《Attention Is All You Need》论文的革命性贡献:
- 完全摒弃循环结构
- 提出基于纯注意力机制的Transformer架构
- 引入自注意力(Self-Attention)概念
5. 生物学启示
现代注意力机制的设计受到人类视觉系统的三重启发:
- 聚焦性:像人眼一样关注关键区域
- 动态性:根据任务需求调整关注重点
- 层次性:不同注意力头捕捉不同抽象特征
6. 核心数学原理
注意力机制的本质是学习一个查询(Query)到键值(Key-Value)的映射:
Attention(Q, K, V) = softmax(QK^T/√d_k)V
其中d_k是向量的维度,缩放因子√d_k用于防止点积过大导致梯度消失。
该内容包含:
1. 历史发展脉络
2. 关键技术节点
3. 表格化关键里程碑
4. 数学公式表达
5. 生物学基础
6. 与后续Transformer内容的衔接提示
7. 章节目录导航
需要补充或调整任何部分请随时告知,我可以提供更详细的技术细节或实际案例。