课程大纲

强化学习导论

  • 强化学习及其应用概述
  • 监督学习、无监督学习和强化学习的区别
  • 关键概念:代理、环境、奖励和策略

马尔可夫决策过程(MDPs)

  • 理解状态、动作、奖励和状态转换
  • 价值函数和贝尔曼方程
  • 动态规划用于解决MDPs

核心RL算法

  • 表格方法:Q-Learning和SARSA
  • 基于策略的方法:REINFORCE算法
  • Actor-Critic框架及其应用

深度强化学习

  • 深度Q网络(DQN)导论
  • 经验回放和目标网络
  • 策略梯度和高级深度RL方法

RL框架和工具

  • OpenAI Gym及其他RL环境介绍
  • 使用PyTorch或TensorFlow开发RL模型
  • 训练、测试和基准测试RL代理

RL中的挑战

  • 训练中的探索-利用权衡
  • 处理稀疏奖励和信用分配问题
  • RL中的可扩展性和计算挑战

动手实践

  • 从零开始实现Q-Learning和SARSA算法
  • 在OpenAI Gym中训练基于DQN的代理玩简单游戏
  • 在自定义环境中微调RL模型以提高性能

总结与下一步

要求

  • 对机器学习原理和算法有深入理解
  • 熟练掌握Python编程
  • 熟悉神经网络和深度学习框架

受众

  • 机器学习工程师
  • AI专家
 14 小时

客户评论 (1)

即将举行的公开课程

课程分类