课程大纲

介绍 Reinforcement Learning

  • 什么是强化学习?
  • 关键概念:代理、环境、状态、操作和奖励
  • 强化学习的挑战

勘探和开发

  • 平衡 RL 模型中的探索和开发
  • 探索策略:epsilon-greedy、softmax 等

Q-Learning 和深度 Q-Networks (DQN)

  • Q-learning 简介
  • 使用 TensorFlow 实现 DQN
  • 使用体验重放和目标网路优化 Q 学习

基于策略的方法

  • 策略梯度演算法
  • REINFORCE 演算法及其实现
  • Actor-critic 方法

使用 OpenAI 健身房

  • 在 OpenAI Gym 中设置环境
  • 在动态环境中类比代理
  • 评估代理性能

高级 Reinforcement Learning 技术

  • 多智慧体强化学习
  • 深度确定性策略梯度 (DDPG)
  • 近端策略优化 (PPO)

部署 Reinforcement Learning 模型

  • 强化学习的实际应用
  • 将 RL 模型整合到生产环境中

总结和后续步骤

要求

  • Python 个程式设计经验
  • 对深度学习和机器学习概念有基本的了解
  • 了解强化学习中使用的演算法和数学概念

观众

  • 数据科学家
  • 机器学习从业者
  • AI 研究人员
 28 小时

客户评论 (4)

即将举行的公开课程

课程分类