感谢您的预订!我们的团队成员将会尽快与您取得联系。
感谢您的预订!我们的团队成员将会尽快与您取得联系。
课程大纲
介绍
- 通过积极强化学习
Reinforcement Learning 的元素
重要术语(行动、状态、奖励、政策、价值、Q值等)
表格解决方案方法概述
创建软件代理
了解基于价值、基于策略和基于模型的方法
使用马尔可夫决策过程 (MDP)
策略如何定义代理的行为方式
使用蒙特卡罗方法
时间差异学习
n 步 Bootstrapping
近似求解方法
基于近似值的策略预测
具有近似值的策略控制
具有近似值的偏离策略的方法
了解资格跟踪
使用策略梯度方法
总结和结论
要求
- 机器学习经验
- Programming 经验
观众
- 数据科学家
21 小时