联系我们

课程大纲

EXO与本地AI集群简介

  • EXO框架及exo-explore生态系统概述
  • 集中式云推理与分布式本地推理的比较
  • 架构:libp2p设备发现、MLX后端、仪表盘和API层
  • 硬件要求:Apple Silicon(M3 Ultra、M4 Pro/Max)、Thunderbolt 5、共享存储

在macOS上安装EXO

  • 设置Xcode、Metal ToolChain和macOS先决条件
  • 安装uv、Node.js、Rust nightly工具链
  • 安装用于Apple Silicon监控的pinned macmon fork
  • 克隆仓库并使用npm构建仪表盘
  • 从源码运行EXO并验证localhost:52415仪表盘

在Linux上安装EXO

  • 通过apt或Homebrew在Linux上安装依赖项
  • 配置uv、Node.js 18+和Rust nightly
  • 构建仪表盘并以CPU-only模式运行EXO
  • 目录布局:XDG基本目录路径,用于配置、数据、缓存和日志

自动设备发现与集群形成

  • 理解基于libp2p的本地网络自动发现
  • 使用EXO_LIBP2P_NAMESPACE配置自定义命名空间以实现集群隔离
  • 在仪表盘集群视图中验证节点成员资格
  • 处理发现失败和网络分段问题

启用Thunderbolt 5上的RDMA

  • RDMA架构及99%延迟降低声明
  • 在macOS恢复模式下使用rdma_ctl启用RDMA
  • Mac Studio上的线缆要求和端口拓扑限制
  • 确保所有集群节点的macOS版本一致
  • 排查RDMA发现和DHCP配置问题

部署前沿模型

  • 使用仪表盘加载并分片DeepSeek v3.1、Qwen3-235B和Llama系列模型
  • 通过/instance/previews API端点预览实例放置
  • 使用管道或张量并行分片创建模型实例
  • 从HuggingFace hub配置自定义模型卡片

监控与故障排除

  • 阅读EXO日志并理解分布式跟踪
  • 在仪表盘集群视图中解读集群健康状况
  • 诊断工作节点故障和重连行为
  • 使用EXO_TRACING_ENABLED进行性能瓶颈分析

集群维护与更新

  • 更新EXO二进制文件及仪表盘重建流程
  • 迁移模型缓存并通过NFS管理预下载模型
  • 优雅移除节点并重新平衡工作负载

要求

  • 了解网络基础知识(IP、子网划分、防火墙)
  • 具备macOS或Linux命令行管理经验
  • 熟悉Python包管理(pip/uv)和Node.js工具

受众

  • 系统管理员
  • DevOps工程师
  • 负责本地LLM部署的AI基础设施架构师
 21 小时

即将举行的公开课程

课程分类