课程大纲

介绍

  • 通过积极强化学习

Reinforcement Learning 的元素

重要术语(行动、状态、奖励、政策、价值、Q值等)

表格解决方案方法概述

创建软件代理

了解基于价值、基于策略和基于模型的方法

使用马尔可夫决策过程 (MDP)

策略如何定义代理的行为方式

使用蒙特卡罗方法

时间差异学习

n 步 Bootstrapping

近似求解方法

基于近似值的策略预测

具有近似值的策略控制

具有近似值的偏离策略的方法

了解资格跟踪

使用策略梯度方法

总结和结论

要求

  • 机器学习经验
  • Programming 经验

观众

  • 数据科学家
  21 小时

人数



每位参与者的报价

相关课程

AI and Robotics for Nuclear

  80 小时

课程分类