课程大纲

强化学习简介

  • 强化学习概述及其应用
  • 监督学习、无监督学习与强化学习的区别
  • 关键概念:智能体、环境、奖励与策略

马尔可夫决策过程(MDPs)

  • 理解状态、动作、奖励与状态转移
  • 价值函数与贝尔曼方程
  • 动态规划求解MDPs

核心强化学习算法

  • 表格方法:Q学习与SARSA
  • 基于策略的方法:REINFORCE算法
  • Actor-Critic框架及其应用

深度强化学习

  • 深度Q网络(DQN)简介
  • 经验回放与目标网络
  • 策略梯度与高级深度强化学习方法

强化学习框架与工具

  • OpenAI Gym及其他强化学习环境简介
  • 使用PyTorch或TensorFlow开发强化学习模型
  • 训练、测试与基准测试强化学习智能体

强化学习中的挑战

  • 训练中的探索与利用平衡
  • 处理稀疏奖励与信用分配问题
  • 强化学习中的可扩展性与计算挑战

实践环节

  • 从零实现Q学习与SARSA算法
  • 在OpenAI Gym中训练基于DQN的智能体玩简单游戏
  • 在自定义环境中微调强化学习模型以提高性能

总结与下一步

要求

  • 对机器学习原理和算法的深入理解
  • 熟练掌握Python编程
  • 熟悉神经网络和深度学习框架

受众

  • 机器学习工程师
  • AI专家
 14 小时

客户评论 (1)

即将举行的公开课程

课程分类