感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
强化学习导论
- 强化学习及其应用概述
- 监督学习、无监督学习和强化学习的区别
- 关键概念:代理、环境、奖励和策略
马尔可夫决策过程(MDPs)
- 理解状态、动作、奖励和状态转换
- 价值函数和贝尔曼方程
- 动态规划用于解决MDPs
核心RL算法
- 表格方法:Q-Learning和SARSA
- 基于策略的方法:REINFORCE算法
- Actor-Critic框架及其应用
深度强化学习
- 深度Q网络(DQN)导论
- 经验回放和目标网络
- 策略梯度和高级深度RL方法
RL框架和工具
- OpenAI Gym及其他RL环境介绍
- 使用PyTorch或TensorFlow开发RL模型
- 训练、测试和基准测试RL代理
RL中的挑战
- 训练中的探索-利用权衡
- 处理稀疏奖励和信用分配问题
- RL中的可扩展性和计算挑战
动手实践
- 从零开始实现Q-Learning和SARSA算法
- 在OpenAI Gym中训练基于DQN的代理玩简单游戏
- 在自定义环境中微调RL模型以提高性能
总结与下一步
要求
- 对机器学习原理和算法有深入理解
- 熟练掌握Python编程
- 熟悉神经网络和深度学习框架
受众
- 机器学习工程师
- AI专家
14 小时
客户评论 (1)
培训师即时回答问题。
Adrian
课程 - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
机器翻译