课程大纲

介绍 Reinforcement Learning

  • 强化学习及其应用概述
  • 监督学习、无监督学习和强化学习之间的区别
  • 关键概念:代理、环境、奖励和策略

玛律可夫决策过程 (MDP)

  • 了解状态、操作、奖励和状态转换
  • 值函数和 Bellman 方程
  • 用于求解 MDP 的动态规划

核心 RL 演算法

  • 表格方法:Q-Learning 和 SARSA
  • 基于策略的方法:REINFORCE 演算法
  • Actor-Critic 框架及其应用

深 Reinforcement Learning

  • 深度 Q 网路 (DQN) 简介
  • 体验重播和目标网路
  • 策略梯度和高级深度 RL 方法

RL 框架和工具

  • OpenAI Gym 和其他 RL 环境简介
  • 使用 PyTorch 或 TensorFlow 进行 RL 模型开发
  • RL 代理的训练、测试和基准测试

RL 中的挑战

  • 在训练中平衡探索和开发
  • 处理稀疏奖励和信用分配问题
  • ScalaRL 中的能力和计算挑战

动手实践 Activities

  • 从头开始实施 Q-Learning 和 SARSA 演算法
  • 训练基于 DQN 的代理在 OpenAI Gym 中玩简单的游戏
  • 微调 RL 模型以提高自定义环境中的性能

总结和后续步骤

要求

  • 对机器学习原理和演算法有深入的理解
  • 精通 Python 个程式设计
  • 熟悉神经网路和深度学习框架

观众

  • 机器学习工程师
  • AI 专家
 14 小时

即将举行的公开课程

课程分类