课程大纲

介绍

强化学习基础

强化学习基本技术

BURLAP简介

值迭代和策略迭代的收敛

奖赏塑形(Reward Shaping)

探索(Exploration)

泛化(Generalization)

部分可观察的马尔可夫决策过程(POMDP)

选择(Options)

Logistics

TD Lambda

策略梯度(Policy Gradient)

深度Q学习

博弈论(Game Theory)专题

总结和结论

要求

  • 熟练掌握Python
  • 了解大学微积分和线性代数
  • 基本了解概率和统计
  • 用Python和Numpy创建机器学习模型的经验

观众

  • 开发 人员
  • 数据科学家
 21 小时

客户评论 (2)

即将举行的公开课程

课程分类