课程大纲

Gemini 3多模态介绍

  • 文本、图像、音频和视频的处理能力。
  • 模型选择和端点概述。
  • 多模态推理的关键概念。

处理文本和结构化输入

  • 文本生成的提示策略。
  • 元数据、上下文窗口和嵌入。
  • 基于文本的多模态任务编排。

图像理解与视觉工作流

  • 使用Gemini 3进行图像分析和解释。
  • 创建视觉搜索和标记工具。
  • 构建图像到文本和文本到图像的交互。

音频输入处理

  • 语音识别和转录工作流。
  • 音频事件检测和解释。
  • 将音频与文本和视觉输入集成。

视频智能与场景分析

  • 逐帧和连续视频推理。
  • 构建摘要和高亮提取工具。
  • 基于视频的自动化和内容工作流。

设计多模态应用架构

  • 在单一管道中组合多种输入类型。
  • 延迟、成本和计算考量。
  • 可扩展多模态系统的最佳实践。

原型设计多模态应用

  • 动手创建多模态原型。
  • 通过提示工程进行快速迭代。
  • 测试和改进用户体验流程。

部署多模态解决方案

  • 部署策略和环境设置。
  • 监控实际性能。
  • 安全和合规考量。

总结与下一步

要求

  • 了解现代AI概念。
  • 具备Python或JavaScript经验。
  • 熟悉REST API。

受众

  • 设计师。
  • 内容创作者。
  • 技术产品团队。
 14 小时

客户评论 (1)

即将举行的公开课程

课程分类