课程大纲

多模态模型简介

  • 多模态机器学习概述
  • 多模态模型的应用
  • 处理多种数据类型的挑战

多模态模型的架构

  • 探索 CLIP、Flamingo 和 BLIP 等模型
  • 了解跨模态注意力机制
  • 可扩展性和效率的架构注意事项

准备多模态数据集

  • 数据收集和注释技术
  • 预处理文字、图像和视频输入
  • 平衡多模态任务的数据集

多模态模型的微调技术

  • 为多模态模型设置训练管道
  • 管理记忆体和计算约束
  • 处理模态之间的一致性

微调多模态模型的应用

  • 视觉问答
  • 图像和视频字幕
  • 使用多模态输入生成内容

性能优化和评估

  • 多模式任务的评估指标
  • 优化生产的延迟和输送量
  • 确保不同模式的稳健性和一致性

部署多模态模型

  • 打包模型以进行部署
  • Scala云平台上的 ble 推理
  • 即时应用程式和整合

案例研究和动手实验

  • 微调 CLIP 以实现基于内容的图像检索
  • 使用文字和视频训练多模式聊天机器人
  • 实施跨模式检索系统

总结和后续步骤

要求

  • 精通 Python 个程式设计
  • 了解深度学习概念
  • 使用微调预训练模型的经验

观众

  • AI 研究人员
  • 数据科学家
  • 机器学习从业者
 28 小时

即将举行的公开课程

课程分类