课程大纲

多模态AI与Ollama简介

  • 多模态学习概述
  • 视觉-语言集成中的关键挑战
  • Ollama的功能与架构

Ollama环境设置

  • 安装与配置Ollama
  • 本地模型部署
  • 将Ollama与Python和Jupyter集成

多模态输入处理

  • 文本与图像集成
  • 音频与结构化数据融合
  • 设计预处理流水线

文档理解应用

  • 从PDF和图像中提取结构化信息
  • 将OCR与语言模型结合
  • 构建智能文档分析工作流

视觉问答(VQA)

  • 设置VQA数据集与基准
  • 训练与评估多模态模型
  • 构建交互式VQA应用

设计多模态代理

  • 多模态推理的代理设计原则
  • 结合感知、语言与行动
  • 为实际用例部署代理

高级集成与优化

  • 使用Ollama微调多模态模型
  • 优化推理性能
  • 可扩展性与部署考虑

总结与下一步

要求

  • 深入理解机器学习概念
  • 具备使用深度学习框架(如PyTorch或TensorFlow)的经验
  • 熟悉自然语言处理和计算机视觉

受众

  • 机器学习工程师
  • AI研究员
  • 集成视觉和文本工作流的产品开发者
 21 小时

即将举行的公开课程

课程分类