联系我们

课程大纲

AI主权与大语言模型本地部署

  • 云大语言模型的风险:数据保留、输入训练、外国管辖权。
  • Ollama架构:模型服务器、注册表和OpenAI兼容API。
  • 与vLLM、llama.cpp和Text Generation Inference的对比。
  • 模型许可:Llama、Mistral、Qwen和Gemma条款。

安装与硬件设置

  • 在支持CUDA和ROCm的Linux上安装Ollama。
  • 仅CPU回退和AVX/AVX2优化。
  • Docker部署和持久卷映射。
  • 多GPU设置和VRAM分配策略。

模型管理

  • 从Ollama注册表拉取模型:ollama pull llama3。
  • 从HuggingFace和TheBloke导入GGUF模型。
  • 量化级别:Q4_K_M、Q5_K_M、Q8_0的权衡。
  • 模型切换和并发模型加载限制。

自定义Modelfiles

  • 编写Modelfile语法:FROM、PARAMETER、SYSTEM、TEMPLATE。
  • 温度、top_p和repeat_penalty调优。
  • 系统提示工程以实现角色特定行为。
  • 创建自定义模型并发布到本地注册表。

API集成

  • OpenAI兼容的/v1/chat/completions端点。
  • 流式响应和JSON模式。
  • 与LangChain、LlamaIndex和自定义应用程序集成。
  • 使用反向代理进行身份验证和速率限制。

性能优化

  • 上下文窗口大小和KV缓存管理。
  • 批量推理和并行请求处理。
  • CPU线程分配和NUMA感知。
  • 监控GPU利用率和内存压力。

安全与合规

  • 模型服务端点的网络隔离。
  • 输入过滤和输出审核管道。
  • 提示和完成日志的审计。
  • 模型来源和哈希验证。

要求

  • 中级Linux和容器管理经验。
  • 对机器学习和Transformer模型有基本了解。
  • 熟悉REST API和JSON。

目标受众

  • 希望替换云大语言模型API的AI工程师和开发者。
  • 因数据敏感性无法使用云模型的组织。
  • 需要物理隔离语言模型的政府和国防团队。
 14 小时

即将举行的公开课程

课程分类