联系我们

生产环境中部署腾讯混元：低延迟推理与成本优化培训

生产环境中部署腾讯混元：低延迟推理与成本优化是一门实用课程，旨在帮助学员在大规模场景下可靠地部署腾讯混元模型。

本次讲师指导的培训（线上或线下）面向中级工程师和架构师，帮助他们使用腾讯混元部署大型和MoE模型，降低延迟，提高GPU利用率，并控制运营成本。

培训结束后，学员将能够：

解释部署腾讯混元模型时面临的主要生产挑战。
应用实用的推理优化技术，如TensorRT、KV缓存调优、量化和批处理。
设计可扩展的部署方案，包括自动扩展、监控和容量规划。
在实际生产负载中优化延迟与成本的权衡。

课程形式

互动式讲座与讨论。
大量练习与实践。
在实验环境中进行动手操作。

课程定制选项

如需定制本课程，请联系我们安排。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

腾讯混元生产基础

腾讯混元模型服务场景概述
大型和MoE模型的生产特性
常见的延迟、吞吐量和成本瓶颈
定义推理工作负载的服务级别目标

部署架构与服务流程

生产推理堆栈的核心组件
在容器化、本地和云部署模型之间选择
模型加载、请求路由和GPU分配基础
设计可靠且操作简单的系统

实践中的延迟优化

使用优化的推理引擎（如TensorRT）
KV缓存概念及实际缓存调优
减少启动、预热和响应开销
测量首令牌时间和令牌生成速度

吞吐量、批处理与GPU效率

连续批处理和请求批处理策略
管理并发和队列行为
在不影响用户体验的情况下提高GPU利用率
处理长上下文和混合工作负载请求

量化与成本控制

量化在生产服务中的重要性
FP16、INT8和其他常见精度选项的实际权衡
平衡模型质量、延迟和基础设施成本
构建简单的成本优化清单

运营、监控与准备审查

推理服务的自动扩展触发器
监控延迟、吞吐量、缓存使用和GPU健康状况
日志记录、告警和事件响应基础
审查参考部署并制定改进计划

要求

对大型语言模型部署和推理工作流程有基本了解。
具备容器、云或本地基础设施以及基于API的服务经验。
熟悉Python或系统工程任务。

受众

将LLM部署到生产环境的ML工程师。
负责基于GPU推理服务的平台工程师。
设计可扩展AI服务平台的技术架构师。

14 小时

需要帮助选择合适的课程吗？

即将举行的公开课程

课程分类

该网站在其他国家/地区

Europe

Österreich (Austria) Schweiz (Switzerland) Deutschland (Germany) Czech Republic Denmark Estonia Finland Greece Magyarország (Hungary) Ireland Luxembourg Latvia España (Spain) Italia (Italy) Lithuania Nederland (Netherlands) Norway Portugal România (Romania) Sverige (Sweden) Türkiye (Turkey) Malta Belgique (Belgium) France Polska (Poland) United Kingdom Bulgaria Moldova Slovakia Slovenia Croatia Serbia

North America

Canada USA Costa Rica Guatemala México (Mexico) Panama

South America

Brasil (Brazil) Argentina Chile Ecuador Colombia Peru Uruguay Venezuela Bolivia

Africa / Middle East

United Arab Emirates Qatar Egypt Saudi Arabia South Africa Morocco Tunisia Kuwait Oman Kenya Nigeria Botswana

Other sites

人力资源培训材料 NobleProg 特许经营 DaDesktop - 云桌面