感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍 Reinforcement Learning
- 强化学习及其应用概述
- 监督学习、无监督学习和强化学习之间的区别
- 关键概念:代理、环境、奖励和策略
玛律可夫决策过程 (MDP)
- 了解状态、操作、奖励和状态转换
- 值函数和 Bellman 方程
- 用于求解 MDP 的动态规划
核心 RL 演算法
- 表格方法:Q-Learning 和 SARSA
- 基于策略的方法:REINFORCE 演算法
- Actor-Critic 框架及其应用
深 Reinforcement Learning
- 深度 Q 网路 (DQN) 简介
- 体验重播和目标网路
- 策略梯度和高级深度 RL 方法
RL 框架和工具
- OpenAI Gym 和其他 RL 环境简介
- 使用 PyTorch 或 TensorFlow 进行 RL 模型开发
- RL 代理的训练、测试和基准测试
RL 中的挑战
- 在训练中平衡探索和开发
- 处理稀疏奖励和信用分配问题
- ScalaRL 中的能力和计算挑战
动手实践 Activities
- 从头开始实施 Q-Learning 和 SARSA 演算法
- 训练基于 DQN 的代理在 OpenAI Gym 中玩简单的游戏
- 微调 RL 模型以提高自定义环境中的性能
总结和后续步骤
要求
- 对机器学习原理和演算法有深入的理解
- 精通 Python 个程式设计
- 熟悉神经网路和深度学习框架
观众
- 机器学习工程师
- AI 专家
14 小时
客户评论 (1)
培训师即时回答问题。
Adrian
课程 - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
机器翻译