感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍
- 通过正强化学习
Elements 的 Reinforcement Learning
重要术语(操作、状态、奖励、政策、价值、Q 值等)
表格解决方案方法概述
创建 Software Agent
了解基于价值、基于策略和基于模型的方法
使用 Markov 决策过程 (MDP)
策略如何定义代理的行为方式
使用 Monte Carlo 方法
时间差异学习
n 步 Bootstrapping
近似求解方法
使用近似值进行策略预测
使用近似的策略控制
使用近似的非策略方法
了解资格跟踪
使用策略梯度方法
总结和结论
要求
- 机器学习经验
- Programming 经验
观众
- 数据科学家
21 小时