感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
EXO基础设施即代码
- 概述EXO部署模式:单节点、多节点与RDMA集群。
- 使用配置管理自动化依赖安装(Xcode、uv、Node.js、Rust)。
- 使用Nix flakes构建可重现的EXO构建与开发环境。
- 编写Ansible playbook或shell脚本实现无人值守集群配置。
可重现构建与CI集成
- 在CI管道中固定依赖项并构建仪表盘。
- 在GitHub Actions或GitLab CI runner中运行EXO冒烟测试。
- 为macOS与Linux虚拟机创建黄金镜像与基于快照的回滚工作流。
- 将自定义模型卡片与应用代码一起版本化。
集群发现与网络自动化
- 配置mDNS与静态DNS以实现可靠的libp2p节点发现。
- 在macOS上自动化网络配置文件创建与Thunderbolt桥接管理。
- 使用自定义命名空间(EXO_LIBP2P_NAMESPACE)分离开发、预生产与生产集群。
- 为多租户环境配置防火墙规则与网络分段。
存储与模型生命周期管理
- 设计EXO_MODELS_DIRS与EXO_MODELS_READ_ONLY_DIRS策略。
- 挂载NFS或SAN共享作为只读模型仓库以快速配置。
- 垃圾回收过期缓存与版本化权重保留策略。
- 在滚动更新前自动化模型预下载与健康检查。
监控与告警
- 将EXO日志发送至集中日志系统(ELK、Loki或Splunk)。
- 基于EXO_TRACING_ENABLED输出构建Grafana仪表盘。
- 告警集群成员变更、OOM事件与推理延迟峰值。
- 关联macmon硬件遥测与模型性能回归。
更新、回滚与灾难恢复
- 在全量部署前在Canary节点中暂存EXO二进制更新。
- 模型级回滚:在量化版本间切换而无需重新下载。
- 备份与恢复集群状态、自定义命名空间与缓存权重。
- 记录集群完全重建场景的恢复手册。
安全加固与合规
- 在反向代理层(nginx、traefik)应用TLS以保护仪表盘与API。
- 为EXO端点实施API速率限制与IP白名单。
- 使用VLAN与零信任网络策略隔离集群。
- 审计访问并维护已部署模型与版本的清单。
要求
- 具备DevOps实践经验(CI/CD、IaC、容器编排)。
- 熟悉macOS或Linux系统管理与包管理。
- 了解网络、DNS与存储概念。
目标受众
- DevOps工程师。
- 基础设施架构师。
- 负责本地AI工作负载的SRE。
21 小时
客户评论 (2)
Craig在培训中非常投入,始终确保我们保持专注,将示例调整到我们的日常活动中,并在被提问时总是提供答案,即使信息未在演示中提及。
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
课程 - DevOps Foundation®
机器翻译
培训师的高度承诺和专业知识
Jacek - Softsystem
课程 - DevOps Engineering Foundation (DOEF)®
机器翻译