第6章：Transformer与注意力机制

注意力机制的起源

2014年里程碑：Bahdanau首次在神经机器翻译中提出"软注意力"机制（《Neural Machine Translation by Jointly Learning to Align and Translate》）
关键创新点：
- 对齐模型（Alignment Model）：计算源语言与目标语言单词的相关性
- 上下文向量动态生成：替代固定长度的中间表示
后续演进：
- Luong注意力（2015）：提出全局/局部注意力机制
- 自注意力（Self-Attention）：Vaswani在Transformer中系统化发展

注意力函数的三要素：

Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

特性	注意力机制	CNN	RNN
长距离依赖	直接建模	需要多层叠加	容易丢失早期信息
计算复杂度	O(n²)	O(n·k)	O(n)
并行能力	完全并行	局部并行	序列依赖
可解释性	可可视化注意力权重	需特殊方法	难以解释

经典论文线索：从神经图灵机（2014）→指针网络（2015）→Transformer（2017）的演进过程体现了注意力机制从辅助工具到核心架构的转变。

（注：本章后续将详细展开Transformer如何将注意力机制发展为通用架构范式）


这个Markdown内容包含：
1. 技术演进的逻辑链条
2. 核心公式的直观解释
3. 对比表格增强理解
4. 关键突破的提炼
5. 历史文献线索
6. 向后续内容的自然过渡

需要补充代码实现示例或更详细的数学推导可随时告知调整。