Tailwind CSSTailwind CSS
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
  • 强化学习: 理论与实践

强化学习: 理论与实践

目录

第1章: 引言

  • 1.1 什么是强化学习?
  • 1.2 强化学习的历史背景
  • 1.3 强化学习与监督学习和无监督学习的关系
  • 1.4 强化学习的应用领域
  • 1.5 本书结构

第2章: 强化学习的基础

  • 2.1 马尔可夫决策过程 (MDP)
    • 2.1.1 状态与动作
    • 2.1.2 转移概率与奖励函数
  • 2.2 贝尔曼方程
  • 2.3 动态规划
  • 2.4 策略与价值函数
    • 2.4.1 策略评估
    • 2.4.2 策略改进

第3章: 模型自由强化学习

  • 3.1 蒙特卡罗方法
  • 3.2 时间差分学习 (TD Learning)
    • 3.2.1 SARSA 算法
    • 3.2.2 Q-learning 算法
  • 3.3 基于策略与基于值的强化学习方法

第4章: 策略梯度方法

  • 4.1 策略梯度定理
  • 4.2 REINFORCE 算法
  • 4.3 Actor-Critic 方法
  • 4.4 Trust Region Policy Optimization (TRPO)
  • 4.5 Proximal Policy Optimization (PPO)

第5章: 深度强化学习

  • 5.1 深度学习概述
  • 5.2 深度 Q 网络 (DQN)
    • 5.2.1 经验回放
    • 5.2.2 目标网络
  • 5.3 深度 Deterministic Policy Gradient (DDPG)
  • 5.4 双重 DQN 和加权重要性采样
  • 5.5 Soft Actor-Critic (SAC)

第6章: 多智能体强化学习

  • 6.1 多智能体问题
  • 6.2 协作与竞争策略
  • 6.3 多智能体 Q-learning
  • 6.4 集体行为学习

第7章: 模仿学习与逆强化学习

  • 7.1 模仿学习的基本概念
  • 7.2 行为克隆
  • 7.3 逆强化学习的理论
  • 7.4 应用与挑战

第8章: 强化学习的实际应用

  • 8.1 游戏中的强化学习
  • 8.2 自动驾驶中的强化学习
  • 8.3 机器人控制中的强化学习
  • 8.4 自然语言处理中的强化学习
  • 8.5 财务领域中的强化学习

第9章: 强化学习的前沿研究

  • 9.1 复杂环境中的强化学习
  • 9.2 安全性与稳定性问题
  • 9.3 解释性与可解释性
  • 9.4 Meta-Reinforcement Learning
  • 9.5 迁移学习与强化学习

第10章: 总结与展望

  • 10.1 强化学习的未来方向
  • 10.2 如何开始强化学习的研究
  • 10.3 可供参考的资源
Last Updated:: 8/29/24, 12:44 AM