第9章：深度学习的工程实践

超参数调优

1. 什么是超参数？

超参数（Hyperparameters）是在模型训练前需要手动设置的参数，它们不通过训练数据学习得到。与模型参数（如权重和偏置）不同，超参数直接影响模型的训练过程和最终性能。

常见的超参数包括：

学习率（Learning Rate）
批量大小（Batch Size）
迭代次数（Epochs）
网络层数（Number of Layers）
每层神经元数量（Units per Layer）
正则化参数（如L1/L2系数）
Dropout率
优化器选择（如Adam、SGD）

2. 超参数调优的重要性

超参数的选择对模型性能有显著影响：

学习率：过大可能导致震荡或无法收敛，过小则训练缓慢。
批量大小：影响梯度更新的稳定性和内存占用。
网络结构：过浅可能导致欠拟合，过深可能导致过拟合。

3. 超参数调优方法

3.1 网格搜索（Grid Search）

原理：在预定义的超参数组合空间中穷举所有可能。
优点：简单直观，适合参数较少的情况。
缺点：计算成本高，维度灾难问题突出。

3.2 随机搜索（Random Search）

原理：从超参数空间中随机采样组合。
优点：比网格搜索更高效，尤其在高维空间。
缺点：可能遗漏最优组合。

3.3 贝叶斯优化（Bayesian Optimization）

原理：基于历史评估结果构建概率模型，指导下一步搜索。
优点：高效，适合昂贵的目标函数（如训练大型模型）。
工具：HyperOpt、Optuna。

3.4 自动化调优工具

Keras Tuner：支持TensorFlow的自动化调优。
Ray Tune：分布式超参数调优框架。
AutoML：如Google的AutoML、H2O.ai。

4. 调优实践建议

分阶段调优：先调学习率和批量大小，再调网络结构。
早停法（Early Stopping）：监控验证集性能，避免无效训练。
日志记录：使用TensorBoard或MLflow跟踪实验。
资源分配：优先调对性能影响大的超参数。

5. 代码示例（Keras Tuner）

import keras_tuner as kt
from tensorflow import keras

def build_model(hp):
    model = keras.Sequential()
    model.add(keras.layers.Dense(
        units=hp.Int('units', min_value=32, max_value=512, step=32),
        activation='relu'))
    model.add(keras.layers.Dense(10, activation='softmax'))
    model.compile(
        optimizer=keras.optimizers.Adam(
            hp.Choice('learning_rate', [1e-2, 1e-3, 1e-4])),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy'])
    return model

tuner = kt.RandomSearch(
    build_model,
    objective='val_accuracy',
    max_trials=10,
    directory='tuning_results')

tuner.search(x_train, y_train, epochs=5, validation_data=(x_val, y_val))
best_model = tuner.get_best_models()[0]

6. 常见陷阱

过拟合验证集：避免在验证集上反复调优导致数据泄露。
忽略硬件限制：大批量可能超出GPU内存。
忽视随机性：多次运行取平均以降低随机波动影响。

7. 延伸阅读

《Deep Learning》by Ian Goodfellow（第11章：实践方法论）
Google AI Blog: "Hyperparameter Tuning with the Keras Tuner"


---

该内容覆盖了超参数调优的核心概念、方法和工具，并提供了实践代码示例。如需进一步扩展，可增加：
1. 具体案例（如CNN调优实例）
2. 不同优化器的超参数对比
3. 分布式调优策略