课程大纲

生产环境中的代理系统基础

  • 代理架构:循环、工具、内存和编排层
  • 代理的生命周期:开发、部署和持续运行
  • 生产规模代理管理的挑战

基础设施与部署模型

  • 在容器化和云环境中部署代理
  • 扩展模式:水平扩展与垂直扩展、并发与节流
  • 多代理编排与工作负载平衡

监控与可观察性

  • 关键指标:延迟、成功率、内存使用率和代理调用深度
  • 跟踪代理活动和调用图
  • 使用Prometheus、OpenTelemetry和Grafana进行可观察性工具化

日志记录、审计与合规性

  • 集中式日志记录和结构化事件收集
  • 代理工作流中的合规性与审计性
  • 设计调试用的审计跟踪和重放机制

性能调优与资源优化

  • 减少推理开销,优化代理编排周期
  • 模型缓存和轻量级嵌入以实现更快检索
  • AI管道的负载测试和压力场景

成本控制与治理

  • 了解代理成本驱动因素:API调用、内存、计算和外部集成
  • 跟踪代理级别成本并实施费用分摊模型
  • 自动化策略以防止代理蔓延和闲置资源消耗

代理的CI/CD与发布策略

  • 将代理管道集成到CI/CD系统中
  • 测试、版本控制和迭代代理更新的回滚策略
  • 渐进式发布和安全部署机制

故障恢复与可靠性工程

  • 设计容错和优雅降级机制
  • 重试、超时和断路器模式以提高代理可靠性
  • AI操作的事件响应和事后分析框架

毕业项目

  • 构建并部署一个具有完整监控和成本跟踪的代理AI系统
  • 模拟负载、测量性能并优化资源使用
  • 向同行展示最终架构和监控仪表板

总结与下一步

要求

  • 对MLOps和生产机器学习系统有深入理解
  • 具备容器化部署(Docker/Kubernetes)经验
  • 熟悉云成本优化和可观察性工具

受众

  • MLOps工程师
  • 站点可靠性工程师(SREs)
  • 负责AI基础设施的工程经理
 21 小时

客户评论 (3)

即将举行的公开课程

课程分类