课程大纲

AI增强的Kubernetes操作简介

  • AI在现代集群操作中的重要性
  • 传统扩展和调度逻辑的局限性
  • 资源管理中的机器学习关键概念

Kubernetes资源管理基础

  • CPU、GPU和内存分配基础
  • 了解配额、限制和请求
  • 识别瓶颈和低效问题

调度的机器学习方法

  • 用于工作负载放置的监督和无监督模型
  • 资源需求的预测算法
  • 在自定义调度器中使用ML功能

强化学习在智能自动扩展中的应用

  • RL代理如何从集群行为中学习
  • 设计效率奖励函数
  • 构建RL驱动的自动扩展策略

使用指标和遥测进行预测性自动扩展

  • 使用Prometheus数据进行预测
  • 将时间序列模型应用于自动扩展
  • 评估预测准确性并调整模型

实现AI驱动的优化工具

  • 将ML框架与Kubernetes控制器集成
  • 部署智能控制循环
  • 扩展KEDA以支持AI辅助决策

成本与性能优化策略

  • 通过预测性扩展降低计算成本
  • 使用ML驱动的放置提高GPU利用率
  • 平衡延迟、吞吐量和效率

实际场景与真实用例

  • 使用AI自动扩展高负载应用
  • 优化异构节点池
  • 将ML应用于多租户环境

总结与下一步

要求

  • 对Kubernetes基础知识的理解
  • 具备容器化应用部署的经验
  • 熟悉集群操作和资源管理

受众

  • 从事大规模分布式系统工作的SRE
  • 管理高需求工作负载的Kubernetes操作员
  • 优化计算基础设施的平台工程师
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类