课程大纲

多模态AI及其应用概览

  • 文本、图像和音频数据集成的挑战
  • 最先进的研究和进展
  • 多模态AI的应用概览

数据处理和特征工程

  • 处理文本、图像和音频数据集
  • 多模态学习的预处理技术
  • 特征提取和数据融合策略

使用Py及及结合不同模态的统一AI模型的Transformer进行NLP和计VISION任务

  • Py的多模态学习介绍
  • 使用Transformers进行NLP和计VISION任务
  • 使用Py及和清华大学的Transformers进行NLP和计VISION任务

实现语音、视觉和文本融合

  • 集成Whisper进行语音识别
  • 应用Deep进行图像处理
  • 交叉模态学习的融合技术

训练和优化模型

  • 多模态AI的模型训练策略
  • 优化技术和超参数调整
  • 处理偏见和提高模型泛化能力

在实际应用中部署模型

  • 导出模型以供生产使用
  • 在云平台上部署AI模型
  • 性能监控和模型维护

总结和结论

要求

  • 对机器学习和深度学习概念有深入的了解
  • 对PyTorch或TensorFlow等人工智慧框架有经验
  • 对文本、图像和音频数据处理有一定的了解

观众

  • AI 开发人员
  • 机器学习工程师
  • 研究人员
 21 小时

即将举行的公开课程

课程分类