课程大纲

介绍

  • 通过正强化学习

Elements 的 Reinforcement Learning

重要术语(操作、状态、奖励、政策、价值、Q 值等)

表格解决方案方法概述

创建 Software Agent

了解基于价值、基于策略和基于模型的方法

使用 Markov 决策过程 (MDP)

策略如何定义代理的行为方式

使用 Monte Carlo 方法

时间差异学习

n 步 Bootstrapping

近似求解方法

使用近似值进行策略预测

使用近似的策略控制

使用近似的非策略方法

了解资格跟踪

使用策略梯度方法

总结和结论

要求

  • 机器学习经验
  • Programming 经验

观众

  • 数据科学家
 21 小时

即将举行的公开课程

课程分类