课程大纲
1. 深度强化学习简介
- 什么是强化学习?
- 监督学习、无监督学习与强化学习的区别
- 2025年深度强化学习的应用(机器人、医疗、金融、物流)
- 理解智能体与环境交互循环
2. 强化学习基础
- 马尔可夫决策过程(MDP)
- 状态、动作、奖励、策略和值函数
- 探索与利用的权衡
- 蒙特卡洛方法和时序差分(TD)学习
3. 实现基础强化学习算法
- 表格方法:动态规划、策略评估与迭代
- Q学习与SARSA
- ε-贪心探索与衰减策略
- 使用OpenAI Gymnasium实现强化学习环境
4. 过渡到深度强化学习
- 表格方法的局限性
- 使用神经网络进行函数逼近
- 深度Q网络(DQN)架构与工作流程
- 经验回放与目标网络
5. 高级深度强化学习算法
- 双DQN、Dueling DQN与优先经验回放
- 策略梯度方法:REINFORCE算法
- Actor-Critic架构(A2C、A3C)
- 近端策略优化(PPO)
- 软Actor-Critic(SAC)
6. 处理连续动作空间
- 连续控制的挑战
- 使用深度确定性策略梯度(DDPG)
- 双延迟DDPG(TD3)
7. 实用工具与框架
- 使用Stable-Baselines3与Ray RLlib
- 使用TensorBoard进行日志记录与监控
- 深度强化学习模型的超参数调优
8. 奖励工程与环境设计
- 奖励塑造与惩罚平衡
- 模拟到现实的迁移学习概念
- 在Gymnasium中创建自定义环境
9. 部分可观测环境与泛化
- 处理不完全状态信息(POMDPs)
- 使用LSTM与RNN的记忆方法
- 提高智能体的鲁棒性与泛化能力
10. 博弈论与多智能体强化学习
- 多智能体环境简介
- 合作与竞争
- 对抗训练与策略优化中的应用
11. 案例研究与实际应用
- 自动驾驶模拟
- 动态定价与金融交易策略
- 机器人与工业自动化
12. 故障排除与优化
- 诊断不稳定的训练
- 管理奖励稀疏性与过拟合
- 在GPU与分布式系统上扩展深度强化学习模型
13. 总结与下一步
- 回顾深度强化学习架构与关键算法
- 行业趋势与研究方向(如RLHF、混合模型)
- 进一步学习资源与阅读材料
要求
- 熟练掌握Python编程
- 理解微积分和线性代数
- 具备概率论与统计学的基础知识
- 有使用Python和NumPy或TensorFlow/PyTorch构建机器学习模型的经验
受众
- 对AI和智能系统感兴趣的开发者
- 探索强化学习框架的数据科学家
- 从事自主系统工作的机器学习工程师
客户评论 (4)
亨特很棒,非常有吸引力,知识渊博,风度翩翩。 做得很好。
Rick Johnson - Laramie County Community College
课程 - Artificial Intelligence (AI) Overview
机器翻译
I liked the new insights in deep machine learning.
Josip Arneric
课程 - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
课程 - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.