联系我们

课程大纲

腾讯混元生产基础

  • 腾讯混元模型服务场景概述
  • 大型和MoE模型的生产特性
  • 常见的延迟、吞吐量和成本瓶颈
  • 定义推理工作负载的服务级别目标

部署架构与服务流程

  • 生产推理堆栈的核心组件
  • 在容器化、本地和云部署模型之间选择
  • 模型加载、请求路由和GPU分配基础
  • 设计可靠且操作简单的系统

实践中的延迟优化

  • 使用优化的推理引擎(如TensorRT)
  • KV缓存概念及实际缓存调优
  • 减少启动、预热和响应开销
  • 测量首令牌时间和令牌生成速度

吞吐量、批处理与GPU效率

  • 连续批处理和请求批处理策略
  • 管理并发和队列行为
  • 在不影响用户体验的情况下提高GPU利用率
  • 处理长上下文和混合工作负载请求

量化与成本控制

  • 量化在生产服务中的重要性
  • FP16、INT8和其他常见精度选项的实际权衡
  • 平衡模型质量、延迟和基础设施成本
  • 构建简单的成本优化清单

运营、监控与准备审查

  • 推理服务的自动扩展触发器
  • 监控延迟、吞吐量、缓存使用和GPU健康状况
  • 日志记录、告警和事件响应基础
  • 审查参考部署并制定改进计划

要求

  • 对大型语言模型部署和推理工作流程有基本了解。
  • 具备容器、云或本地基础设施以及基于API的服务经验。
  • 熟悉Python或系统工程任务。

受众

  • 将LLM部署到生产环境的ML工程师。
  • 负责基于GPU推理服务的平台工程师。
  • 设计可扩展AI服务平台的技术架构师。
 14 小时

即将举行的公开课程

课程分类