第3章：神经网络核心

激活函数详解

1. 激活函数的作用

非线性变换：使神经网络能够拟合非线性关系（若无激活函数，多层网络等价于单层线性变换）
特征映射：将输入信号转换为更具判别性的表示（如ReLU的稀疏激活特性）
梯度传递：通过导数控制反向传播中的梯度流动（影响训练稳定性）

2. 常见激活函数对比

函数名称	公式	优点	缺点	适用场景
Sigmoid	σ(x)=1/(1+e⁻ˣ)	输出范围(0,1)，概率解释明确	梯度消失、计算成本高	二分类输出层
Tanh	tanh(x)=(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ)	输出范围(-1,1)，中心化	梯度消失问题仍存在	RNN隐藏层
ReLU	max(0,x)	计算高效，缓解梯度消失	神经元"死亡"问题（负区梯度为0）	CNN/MLP隐藏层
LeakyReLU	max(αx,x) (α≈0.01)	缓解神经元死亡问题	需要调参α值	替代ReLU的改进方案
GELU	xΦ(x) (Φ为标准正态CDF)	更符合神经元的概率性激活特性	计算复杂度较高	Transformer模型

3. 进阶激活函数

Swish：x·σ(βx)（Google提出的平滑版ReLU，β可学习）
Mish：x·tanh(ln(1+eˣ))（连续可微，在计算机视觉中表现优异）
Maxout：max(w₁ᵀx+b₁, w₂ᵀx+b₂)（通过竞争机制选择激活）

4. 选择指南

隐藏层：优先使用ReLU及其变种（平衡效率与性能）
输出层：
- 回归任务：线性激活
- 二分类：Sigmoid
- 多分类：Softmax
特殊架构：
- Transformer：GELU
- 生成模型：Tanh（输出归一化）

5. 实践建议

初始化配合：使用He初始化（ReLU）或Glorot初始化（Tanh）
监控激活率：理想状态下应有30-50%的神经元被激活
死亡神经元检测：统计训练中持续输出0的神经元比例

代码示例（PyTorch激活函数对比）

import torch.nn as nn

activations = {
    'ReLU': nn.ReLU(),
    'LeakyReLU': nn.LeakyReLU(0.1),
    'GELU': nn.GELU(),
    'Mish': lambda x: x * torch.tanh(nn.functional.softplus(x))
}

6. 前沿发展

自适应激活函数：如PAU（参数化激活单元）通过可学习参数动态调整形态
注意力驱动的激活：将注意力机制与激活过程结合（如Dynamic ReLU）
神经搜索激活函数：通过AutoML技术自动发现最优激活形式


该内容包含理论解释、实践对比和最新进展，适合作为教材章节。如需增加以下内容可告知：
1. 数学推导（如梯度计算过程）
2. 具体任务的性能对比实验数据
3. 不同框架中的实现差异说明