课程大纲

视觉语言模型简介

  • VLMs概述及其在多模态AI中的角色
  • 流行架构:CLIP、Flamingo、BLIP等
  • 应用案例:搜索、字幕生成、自动化系统、内容分析

准备Fine-Tuning环境

  • 设置OpenCLIP及其他VLM库
  • 图像-文本对的数据集格式
  • 视觉和语言输入的预处理管道

Fine-Tuning CLIP及类似模型

  • 对比损失与联合嵌入空间
  • 实操:在自定义数据集上微调CLIP
  • 处理领域特定及多语言数据

高级Fine-Tuning技术

  • 使用LoRA和基于适配器的方法提升效率
  • 提示调优与视觉提示注入
  • 零样本与微调评估的权衡

评估与基准测试

  • VLMs的评估指标:检索准确率、BLEU、CIDEr、召回率
  • 视觉-文本对齐诊断
  • 可视化嵌入空间与错误分类

部署与实际应用

  • 导出模型以进行推理(TorchScript、ONNX)
  • 将VLMs集成到管道或API中
  • 资源考虑与模型扩展

案例研究与应用场景

  • 媒体分析与内容审核
  • 电子商务与数字图书馆中的搜索与检索
  • 机器人与自动化系统中的多模态交互

总结与下一步

要求

  • 了解深度学习在视觉和自然语言处理中的应用
  • 具备PyTorch和基于transformer模型的经验
  • 熟悉多模态模型架构

目标受众

  • 电脑视觉工程师
  • AI开发者
 14 小时

即将举行的公开课程

课程分类