课程大纲

安全与公平AI的基础

  • 关键概念:安全性、偏见、公平性、透明度
  • 偏见类型:数据集偏见、代表性偏见、算法偏见
  • 监管框架概述(欧盟AI法案、GDPR等)

微调模型中的偏见

  • 微调如何引入或放大偏见
  • 案例研究与现实中的失败案例
  • 识别数据集和模型预测中的偏见

偏见缓解技术

  • 数据层面策略(重新平衡、数据增强)
  • 训练中策略(正则化、对抗性去偏见)
  • 后处理策略(输出过滤、校准)

模型安全与稳健性

  • 检测不安全或有害的输出
  • 处理对抗性输入
  • 红队演练与压力测试微调模型

审计与监控AI系统

  • 偏见与公平性评估指标(如人口统计平等)
  • 可解释性工具与透明度框架
  • 持续监控与治理实践

工具包与实践操作

  • 使用开源库(如Fairlearn、Transformers、CheckList)
  • 实践操作:检测与缓解微调模型中的偏见
  • 通过提示设计与约束生成安全输出

企业Use Case与合规准备

  • 在LLM工作流程中整合安全性的最佳实践
  • Documentation与模型卡片用于合规
  • 准备审计与外部审查

总结与下一步

要求

  • 了解机器学习模型与训练流程
  • 具备微调与LLMs的实务经验
  • 熟悉Python与NLP概念

目标受众

  • AI合规团队
  • ML工程师
 14 小时

即将举行的公开课程

课程分类