课程大纲

1. 深度强化学习简介

  • 什么是强化学习?
  • 监督学习、无监督学习与强化学习的区别
  • 2025年深度强化学习的应用(机器人、医疗、金融、物流)
  • 理解智能体与环境交互循环

2. 强化学习基础

  • 马尔可夫决策过程(MDP)
  • 状态、动作、奖励、策略和值函数
  • 探索与利用的权衡
  • 蒙特卡洛方法和时序差分(TD)学习

3. 实现基础强化学习算法

  • 表格方法:动态规划、策略评估与迭代
  • Q学习与SARSA
  • ε-贪心探索与衰减策略
  • 使用OpenAI Gymnasium实现强化学习环境

4. 过渡到深度强化学习

  • 表格方法的局限性
  • 使用神经网络进行函数逼近
  • 深度Q网络(DQN)架构与工作流程
  • 经验回放与目标网络

5. 高级深度强化学习算法

  • 双DQN、Dueling DQN与优先经验回放
  • 策略梯度方法:REINFORCE算法
  • Actor-Critic架构(A2C、A3C)
  • 近端策略优化(PPO)
  • 软Actor-Critic(SAC)

6. 处理连续动作空间

  • 连续控制的挑战
  • 使用深度确定性策略梯度(DDPG)
  • 双延迟DDPG(TD3)

7. 实用工具与框架

  • 使用Stable-Baselines3与Ray RLlib
  • 使用TensorBoard进行日志记录与监控
  • 深度强化学习模型的超参数调优

8. 奖励工程与环境设计

  • 奖励塑造与惩罚平衡
  • 模拟到现实的迁移学习概念
  • 在Gymnasium中创建自定义环境

9. 部分可观测环境与泛化

  • 处理不完全状态信息(POMDPs)
  • 使用LSTM与RNN的记忆方法
  • 提高智能体的鲁棒性与泛化能力

10. 博弈论与多智能体强化学习

  • 多智能体环境简介
  • 合作与竞争
  • 对抗训练与策略优化中的应用

11. 案例研究与实际应用

  • 自动驾驶模拟
  • 动态定价与金融交易策略
  • 机器人与工业自动化

12. 故障排除与优化

  • 诊断不稳定的训练
  • 管理奖励稀疏性与过拟合
  • 在GPU与分布式系统上扩展深度强化学习模型

13. 总结与下一步

  • 回顾深度强化学习架构与关键算法
  • 行业趋势与研究方向(如RLHF、混合模型)
  • 进一步学习资源与阅读材料

要求

  • 熟练掌握Python编程
  • 理解微积分和线性代数
  • 具备概率论与统计学的基础知识
  • 有使用Python和NumPy或TensorFlow/PyTorch构建机器学习模型的经验

受众

  • 对AI和智能系统感兴趣的开发者
  • 探索强化学习框架的数据科学家
  • 从事自主系统工作的机器学习工程师
 21 小时

客户评论 (4)

即将举行的公开课程

课程分类