课程大纲

强化学习与Agentic AI简介

  • 不确定条件下的决策制定与序列规划
  • RL的关键组成部分:智能体、环境、状态和奖励
  • RL在自适应和agentic AI系统中的作用

马尔可夫决策过程(MDPs)

  • MDPs的正式定义与性质
  • 价值函数、贝尔曼方程和动态规划
  • 策略评估、改进与迭代

无模型强化学习

  • 蒙特卡洛与时序差分(TD)学习
  • Q学习与SARSA
  • 实践:在Python中实现表格RL方法

深度强化学习

  • 将神经网络与RL结合用于函数逼近
  • 深度Q网络(DQN)与经验回放
  • 演员-评论家架构与策略梯度
  • 实践:使用Stable-Baselines3训练DQN和PPO智能体

探索策略与奖励塑造

  • 平衡探索与利用(ε-贪婪、UCB、熵方法)
  • 设计奖励函数并避免意外行为
  • 奖励塑造与课程学习

强化学习与决策制定的高级主题

  • 多智能体强化学习与合作策略
  • 分层强化学习与选项框架
  • 离线RL与模仿学习以实现更安全的部署

仿真环境与评估

  • 使用OpenAI Gym与自定义环境
  • 连续与离散动作空间
  • 智能体性能、稳定性和样本效率的评估指标

将RL集成到Agentic AI系统中

  • 在混合智能体架构中结合推理与RL
  • 将强化学习与工具使用智能体集成
  • 扩展与部署的操作注意事项

毕业项目

  • 设计并实现一个用于仿真任务的强化学习智能体
  • 分析训练性能并优化超参数
  • 在agentic上下文中展示自适应行为与决策制定

总结与下一步

要求

  • 熟练掌握Python编程
  • 扎实的机器学习和深度学习概念基础
  • 熟悉线性代数、概率论和基本优化方法

目标受众

  • 强化学习工程师和应用AI研究人员
  • 机器人和自动化开发人员
  • 从事自适应和agentic AI系统开发的工程团队
 28 小时

客户评论 (3)

即将举行的公开课程

课程分类