强化学习: 理论与实践
目录
第1章: 引言
- 1.1 什么是强化学习?
- 1.2 强化学习的历史背景
- 1.3 强化学习与监督学习和无监督学习的关系
- 1.4 强化学习的应用领域
- 1.5 本书结构
第2章: 强化学习的基础
- 2.1 马尔可夫决策过程 (MDP)
- 2.1.1 状态与动作
- 2.1.2 转移概率与奖励函数
- 2.2 贝尔曼方程
- 2.3 动态规划
- 2.4 策略与价值函数
- 2.4.1 策略评估
- 2.4.2 策略改进
第3章: 模型自由强化学习
- 3.1 蒙特卡罗方法
- 3.2 时间差分学习 (TD Learning)
- 3.2.1 SARSA 算法
- 3.2.2 Q-learning 算法
- 3.3 基于策略与基于值的强化学习方法
第4章: 策略梯度方法
- 4.1 策略梯度定理
- 4.2 REINFORCE 算法
- 4.3 Actor-Critic 方法
- 4.4 Trust Region Policy Optimization (TRPO)
- 4.5 Proximal Policy Optimization (PPO)
第5章: 深度强化学习
- 5.1 深度学习概述
- 5.2 深度 Q 网络 (DQN)
- 5.2.1 经验回放
- 5.2.2 目标网络
- 5.3 深度 Deterministic Policy Gradient (DDPG)
- 5.4 双重 DQN 和加权重要性采样
- 5.5 Soft Actor-Critic (SAC)
第6章: 多智能体强化学习
- 6.1 多智能体问题
- 6.2 协作与竞争策略
- 6.3 多智能体 Q-learning
- 6.4 集体行为学习
第7章: 模仿学习与逆强化学习
- 7.1 模仿学习的基本概念
- 7.2 行为克隆
- 7.3 逆强化学习的理论
- 7.4 应用与挑战
第8章: 强化学习的实际应用
- 8.1 游戏中的强化学习
- 8.2 自动驾驶中的强化学习
- 8.3 机器人控制中的强化学习
- 8.4 自然语言处理中的强化学习
- 8.5 财务领域中的强化学习
第9章: 强化学习的前沿研究
- 9.1 复杂环境中的强化学习
- 9.2 安全性与稳定性问题
- 9.3 解释性与可解释性
- 9.4 Meta-Reinforcement Learning
- 9.5 迁移学习与强化学习
第10章: 总结与展望
- 10.1 强化学习的未来方向
- 10.2 如何开始强化学习的研究
- 10.3 可供参考的资源
