感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
Gemini 3多模态介绍
- 文本、图像、音频和视频的处理能力。
- 模型选择和端点概述。
- 多模态推理的关键概念。
处理文本和结构化输入
- 文本生成的提示策略。
- 元数据、上下文窗口和嵌入。
- 基于文本的多模态任务编排。
图像理解与视觉工作流
- 使用Gemini 3进行图像分析和解释。
- 创建视觉搜索和标记工具。
- 构建图像到文本和文本到图像的交互。
音频输入处理
- 语音识别和转录工作流。
- 音频事件检测和解释。
- 将音频与文本和视觉输入集成。
视频智能与场景分析
- 逐帧和连续视频推理。
- 构建摘要和高亮提取工具。
- 基于视频的自动化和内容工作流。
设计多模态应用架构
- 在单一管道中组合多种输入类型。
- 延迟、成本和计算考量。
- 可扩展多模态系统的最佳实践。
原型设计多模态应用
- 动手创建多模态原型。
- 通过提示工程进行快速迭代。
- 测试和改进用户体验流程。
部署多模态解决方案
- 部署策略和环境设置。
- 监控实际性能。
- 安全和合规考量。
总结与下一步
要求
- 了解现代AI概念。
- 具备Python或JavaScript经验。
- 熟悉REST API。
受众
- 设计师。
- 内容创作者。
- 技术产品团队。
14 小时
客户评论 (1)
演讲的流畅性、氛围与主题
Lukasz Kowalczyk - Allegro Sp. z o.o.
课程 - Google Gemini AI for Data Analysis
机器翻译