联系我们

课程大纲

安全与公平AI的基础

  • 关键概念:安全性、偏见、公平性、透明性
  • 偏见类型:数据集偏见、代表性偏见、算法偏见
  • 监管框架概述(欧盟AI法案、GDPR等)

微调模型中的偏见

  • 微调如何引入或放大偏见
  • 案例研究与现实中的失败案例
  • 识别数据集和模型预测中的偏见

偏见缓解技术

  • 数据层面的策略(重新平衡、数据增强)
  • 训练中的策略(正则化、对抗性去偏)
  • 后处理策略(输出过滤、校准)

模型安全性与鲁棒性

  • 检测不安全或有害的输出
  • 处理对抗性输入
  • 红队测试与压力测试微调模型

AI系统的审计与监控

  • 偏见与公平性评估指标(如人口统计平等)
  • 可解释性工具与透明性框架
  • 持续监控与治理实践

工具包与实操练习

  • 使用开源库(如Fairlearn、Transformers、CheckList)
  • 实操:检测并缓解微调模型中的偏见
  • 通过提示设计与约束生成安全输出

企业用例与合规准备

  • 在LLM工作流程中集成安全性的最佳实践
  • 合规性文档与模型卡
  • 为审计和外部审查做准备

总结与下一步

要求

  • 了解机器学习模型及训练过程
  • 有微调和LLMs相关工作经验
  • 熟悉Python和NLP概念

受众

  • AI合规团队
  • ML工程师
 14 小时

即将举行的公开课程

课程分类