联系我们

课程大纲

EXO基础设施即代码

  • 概述EXO部署模式:单节点、多节点与RDMA集群。
  • 使用配置管理自动化依赖安装(Xcode、uv、Node.js、Rust)。
  • 使用Nix flakes构建可重现的EXO构建与开发环境。
  • 编写Ansible playbook或shell脚本实现无人值守集群配置。

可重现构建与CI集成

  • 在CI管道中固定依赖项并构建仪表盘。
  • 在GitHub Actions或GitLab CI runner中运行EXO冒烟测试。
  • 为macOS与Linux虚拟机创建黄金镜像与基于快照的回滚工作流。
  • 将自定义模型卡片与应用代码一起版本化。

集群发现与网络自动化

  • 配置mDNS与静态DNS以实现可靠的libp2p节点发现。
  • 在macOS上自动化网络配置文件创建与Thunderbolt桥接管理。
  • 使用自定义命名空间(EXO_LIBP2P_NAMESPACE)分离开发、预生产与生产集群。
  • 为多租户环境配置防火墙规则与网络分段。

存储与模型生命周期管理

  • 设计EXO_MODELS_DIRS与EXO_MODELS_READ_ONLY_DIRS策略。
  • 挂载NFS或SAN共享作为只读模型仓库以快速配置。
  • 垃圾回收过期缓存与版本化权重保留策略。
  • 在滚动更新前自动化模型预下载与健康检查。

监控与告警

  • 将EXO日志发送至集中日志系统(ELK、Loki或Splunk)。
  • 基于EXO_TRACING_ENABLED输出构建Grafana仪表盘。
  • 告警集群成员变更、OOM事件与推理延迟峰值。
  • 关联macmon硬件遥测与模型性能回归。

更新、回滚与灾难恢复

  • 在全量部署前在Canary节点中暂存EXO二进制更新。
  • 模型级回滚:在量化版本间切换而无需重新下载。
  • 备份与恢复集群状态、自定义命名空间与缓存权重。
  • 记录集群完全重建场景的恢复手册。

安全加固与合规

  • 在反向代理层(nginx、traefik)应用TLS以保护仪表盘与API。
  • 为EXO端点实施API速率限制与IP白名单。
  • 使用VLAN与零信任网络策略隔离集群。
  • 审计访问并维护已部署模型与版本的清单。

要求

  • 具备DevOps实践经验(CI/CD、IaC、容器编排)。
  • 熟悉macOS或Linux系统管理与包管理。
  • 了解网络、DNS与存储概念。

目标受众

  • DevOps工程师。
  • 基础设施架构师。
  • 负责本地AI工作负载的SRE。
 21 小时

客户评论 (2)

即将举行的公开课程

课程分类