Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
介绍
- 通过积极强化学习
Reinforcement Learning 的元素
重要术语(行动、状态、奖励、政策、价值、Q值等)
表格解决方案方法概述
创建软件代理
了解基于价值、基于策略和基于模型的方法
使用马尔可夫决策过程 (MDP)
策略如何定义代理的行为方式
使用蒙特卡罗方法
时间差异学习
n 步 Bootstrapping
近似求解方法
基于近似值的策略预测
具有近似值的策略控制
具有近似值的偏离策略的方法
了解资格跟踪
使用策略梯度方法
总结和结论
要求
- 机器学习经验
- Programming 经验
观众
- 数据科学家
21 小时