课程大纲

介绍与诊断基础

  • LLM系统的故障模式概述及Ollama特定问题
  • 建立可重复的实验和受控环境
  • 调试工具集:本地日志、请求/响应捕获及沙盒环境

重现与隔离故障

  • 创建最小化失败示例和种子的技术
  • 有状态与无状态交互:隔离上下文相关错误
  • 确定性、随机性及控制非确定性行为

行为评估与指标

  • 定量指标:准确率、ROUGE/BLEU变体、校准及困惑度代理
  • 定性评估:人工参与评分及评分标准设计
  • 任务特定的保真度检查与验收标准

自动化测试与回归

  • 提示与组件的单元测试、场景及端到端测试
  • 创建回归测试套件及黄金示例基线
  • Ollama模型更新的CI/CD集成及自动化验证门控

可观测性与监控

  • 结构化日志、分布式追踪及关联ID
  • 关键操作指标:延迟、令牌使用量、错误率及质量信号
  • 模型支持服务的告警、仪表盘及SLIs/SLOs

高级根因分析

  • 通过图形化提示、工具调用及多轮流程进行追踪
  • 对比A/B诊断及消融研究
  • 数据来源、数据集调试及解决数据集引发的故障

安全性、鲁棒性及修复策略

  • 缓解措施:过滤、基础、检索增强及提示框架
  • 模型更新的回滚、金丝雀及分阶段发布模式
  • 事后分析、经验教训及持续改进循环

总结与下一步

要求

  • 具备构建和部署LLM应用程序的丰富经验
  • 熟悉Ollama工作流程和模型托管
  • 熟练使用Python、Docker和基本的可观测性工具

受众

  • AI工程师
  • ML Ops专业人员
  • 负责生产LLM系统的QA团队
 35 小时

即将举行的公开课程

课程分类