课程大纲

LLM架构与攻击面概述

  • LLM如何构建、部署并通过API访问
  • LLM应用堆栈中的关键组件(如提示、代理、内存、API)
  • 实际使用中安全问题的产生位置和方式

提示注入与越狱攻击

  • 什么是提示注入及其危险性
  • 直接和间接提示注入场景
  • 绕过安全过滤器的越狱技术
  • 检测与缓解策略

数据泄漏与隐私风险

  • 通过响应意外暴露数据
  • PII泄漏与模型内存滥用
  • 设计注重隐私的提示与检索增强生成(RAG)

LLM输出过滤与防护

  • 使用Guardrails AI进行内容过滤与验证
  • 定义输出模式与约束
  • 监控与记录不安全输出

人机协作与工作流方法

  • 何时何地引入人工监督
  • 审批队列、评分阈值、后备处理
  • 信任校准与可解释性的作用

安全LLM应用设计模式

  • API调用与代理的最小权限与沙箱化
  • 速率限制、节流与滥用检测
  • 使用LangChain进行稳健的链式操作与提示隔离

合规性、日志记录与治理

  • 确保LLM输出的可审计性
  • 保持可追溯性与提示/版本控制
  • 与内部安全政策及监管需求保持一致

总结与下一步

要求

  • 了解大语言模型和基于提示的界面
  • 使用Python构建LLM应用的经验
  • 熟悉API集成和基于云的部署

受众

  • AI开发者
  • 应用和解决方案架构师
  • 使用LLM工具的技术产品经理
 14 小时

即将举行的公开课程

课程分类