课程大纲

介绍

Reinforcement Learning 基础知识

基本 Reinforcement Learning 技术

粗麻布简介

价值与政策迭代的融合

奖励塑造

勘探

普遍化

部分可观察的 MDP

选项

后勤

TD Lambda的

策略梯度

深度 Q 学习

博弈论专题

摘要和后续步骤

要求

  • 精通Python
  • 对大学微积分和线性代数的理解
  • 对概率和Statistics的基本理解
  • 具有在 Python 和 Numpy 中创建机器学习模型的经验

观众

  • 开发 人员
  • 数据科学家
  21 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

相关课程

课程分类