课程大纲

介绍

  • 通过积极强化学习

Reinforcement Learning 的元素

重要术语(行动、状态、奖励、政策、价值、Q值等)

表格解决方案方法概述

创建软件代理

了解基于价值、基于策略和基于模型的方法

使用马尔可夫决策过程 (MDP)

策略如何定义代理的行为方式

使用蒙特卡罗方法

时间差异学习

n 步 Bootstrapping

近似求解方法

基于近似值的策略预测

具有近似值的策略控制

具有近似值的偏离策略的方法

了解资格跟踪

使用策略梯度方法

总结和结论

要求

  • 机器学习经验
  • Programming 经验

观众

  • 数据科学家
 21 小时

人数



每位参与者的报价

客户评论 (3)

相关课程

用Python进行深度强化学习

21 小时

Large Language Models (LLMs) and Reinforcement Learning (RL)

21 小时

Reinforcement Learning with Java

21 小时

OptaPlanner in Practice

21 小时

AI in business and Society & The future of AI - AI/Robotics

7 小时

UiPath for Intelligent Process Automation (IPA)

14 小时

Intelligent Testing

14 小时

Introduction to Data Science and AI using Python

35 小时

AI in Digital Marketing

7 小时

IBM Cloud Pak for Data

14 小时

Artificial Intelligence (AI) for Robotics

21 小时

Artificial Intelligence (AI) for Managers

7 小时

AI and Robotics for Nuclear

80 小时

AI and Robotics for Nuclear - Extended

120 小时

Introduction to Bing AI: Enhancing Search with Artificial Intelligence

14 小时

课程分类