感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
AI主权与大语言模型本地部署
- 云大语言模型的风险:数据保留、输入训练、外国管辖权。
- Ollama架构:模型服务器、注册表和OpenAI兼容API。
- 与vLLM、llama.cpp和Text Generation Inference的对比。
- 模型许可:Llama、Mistral、Qwen和Gemma条款。
安装与硬件设置
- 在支持CUDA和ROCm的Linux上安装Ollama。
- 仅CPU回退和AVX/AVX2优化。
- Docker部署和持久卷映射。
- 多GPU设置和VRAM分配策略。
模型管理
- 从Ollama注册表拉取模型:ollama pull llama3。
- 从HuggingFace和TheBloke导入GGUF模型。
- 量化级别:Q4_K_M、Q5_K_M、Q8_0的权衡。
- 模型切换和并发模型加载限制。
自定义Modelfiles
- 编写Modelfile语法:FROM、PARAMETER、SYSTEM、TEMPLATE。
- 温度、top_p和repeat_penalty调优。
- 系统提示工程以实现角色特定行为。
- 创建自定义模型并发布到本地注册表。
API集成
- OpenAI兼容的/v1/chat/completions端点。
- 流式响应和JSON模式。
- 与LangChain、LlamaIndex和自定义应用程序集成。
- 使用反向代理进行身份验证和速率限制。
性能优化
- 上下文窗口大小和KV缓存管理。
- 批量推理和并行请求处理。
- CPU线程分配和NUMA感知。
- 监控GPU利用率和内存压力。
安全与合规
- 模型服务端点的网络隔离。
- 输入过滤和输出审核管道。
- 提示和完成日志的审计。
- 模型来源和哈希验证。
要求
- 中级Linux和容器管理经验。
- 对机器学习和Transformer模型有基本了解。
- 熟悉REST API和JSON。
目标受众
- 希望替换云大语言模型API的AI工程师和开发者。
- 因数据敏感性无法使用云模型的组织。
- 需要物理隔离语言模型的政府和国防团队。
14 小时