感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍与诊断基础
- LLM系统的故障模式概述及Ollama特定问题
- 建立可重复的实验和受控环境
- 调试工具集:本地日志、请求/响应捕获及沙盒环境
重现与隔离故障
- 创建最小化失败示例和种子的技术
- 有状态与无状态交互:隔离上下文相关错误
- 确定性、随机性及控制非确定性行为
行为评估与指标
- 定量指标:准确率、ROUGE/BLEU变体、校准及困惑度代理
- 定性评估:人工参与评分及评分标准设计
- 任务特定的保真度检查与验收标准
自动化测试与回归
- 提示与组件的单元测试、场景及端到端测试
- 创建回归测试套件及黄金示例基线
- Ollama模型更新的CI/CD集成及自动化验证门控
可观测性与监控
- 结构化日志、分布式追踪及关联ID
- 关键操作指标:延迟、令牌使用量、错误率及质量信号
- 模型支持服务的告警、仪表盘及SLIs/SLOs
高级根因分析
- 通过图形化提示、工具调用及多轮流程进行追踪
- 对比A/B诊断及消融研究
- 数据来源、数据集调试及解决数据集引发的故障
安全性、鲁棒性及修复策略
- 缓解措施:过滤、基础、检索增强及提示框架
- 模型更新的回滚、金丝雀及分阶段发布模式
- 事后分析、经验教训及持续改进循环
总结与下一步
要求
- 具备构建和部署LLM应用程序的丰富经验
- 熟悉Ollama工作流程和模型托管
- 熟练使用Python、Docker和基本的可观测性工具
受众
- AI工程师
- ML Ops专业人员
- 负责生产LLM系统的QA团队
35 小时