Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
介绍
强化学习基础
强化学习基本技术
BURLAP简介
值迭代和策略迭代的收敛
奖赏塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可观察的马尔可夫决策过程(POMDP)
选择(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q学习
博弈论(Game Theory)专题
总结和结论
要求
- 熟练掌握Python
- 了解大学微积分和线性代数
- 基本了解概率和统计
- 用Python和Numpy创建机器学习模型的经验
21 小时