感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
强化学习简介
- 强化学习概述及其应用
- 监督学习、无监督学习与强化学习的区别
- 关键概念:智能体、环境、奖励与策略
马尔可夫决策过程(MDPs)
- 理解状态、动作、奖励与状态转移
- 价值函数与贝尔曼方程
- 动态规划求解MDPs
核心强化学习算法
- 表格方法:Q学习与SARSA
- 基于策略的方法:REINFORCE算法
- Actor-Critic框架及其应用
深度强化学习
- 深度Q网络(DQN)简介
- 经验回放与目标网络
- 策略梯度与高级深度强化学习方法
强化学习框架与工具
- OpenAI Gym及其他强化学习环境简介
- 使用PyTorch或TensorFlow开发强化学习模型
- 训练、测试与基准测试强化学习智能体
强化学习中的挑战
- 训练中的探索与利用平衡
- 处理稀疏奖励与信用分配问题
- 强化学习中的可扩展性与计算挑战
实践环节
- 从零实现Q学习与SARSA算法
- 在OpenAI Gym中训练基于DQN的智能体玩简单游戏
- 在自定义环境中微调强化学习模型以提高性能
总结与下一步
要求
- 对机器学习原理和算法的深入理解
- 熟练掌握Python编程
- 熟悉神经网络和深度学习框架
受众
- 机器学习工程师
- AI专家
14 小时
客户评论 (1)
培训师即时回答问题。
Adrian
课程 - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
机器翻译