课程大纲

介绍

强化学习基础

强化学习基本技术

BURLAP简介

值迭代和策略迭代的收敛

奖赏塑形(Reward Shaping)

探索(Exploration)

泛化(Generalization)

部分可观察的马尔可夫决策过程(POMDP)

选择(Options)

Logistics

TD Lambda

策略梯度(Policy Gradient)

深度Q学习

博弈论(Game Theory)专题

总结和结论

要求

  • 熟练掌握Python
  • 了解大学微积分和线性代数
  • 基本了解概率和统计
  • 用Python和Numpy创建机器学习模型的经验
 21 小时

人数



每位参与者的报价

相关课程

Advanced Stable Diffusion: Deep Learning for Text-to-Image Generation

21 小时

Introduction to Stable Diffusion for Text-to-Image Generation

21 小时

AlphaFold

7 小时

TensorFlow Lite for Embedded Linux

21 小时

TensorFlow Lite for Android

21 小时

TensorFlow Lite for iOS

21 小时

Tensorflow Lite for Microcontrollers

21 小时

Deep Learning Neural Networks with Chainer

14 小时

Distributed Deep Learning with Horovod

7 小时

Accelerating Deep Learning with FPGA and OpenVINO

35 小时

Building Deep Learning Models with Apache MXNet

21 小时

Deep Learning with Keras

21 小时

Advanced Deep Learning with Keras and Python

14 小时

Deep Learning for Self Driving Cars

21 小时

Torch for Machine and Deep Learning

21 小时

课程分类