课程大纲

Speech Recognition 技术概述

  • 语音识别的历史与演变
  • 声学模型、语言模型与解码
  • 现代架构:RNNs、transformers 与 Whisper

音频预处理与转录基础

  • 处理音频格式与采样率
  • 清理、修剪与分段音频
  • 从音频生成文本:实时与批量

Whisper 与其他 API 实作

  • 安装与使用 OpenAI Whisper
  • 调用云端 API(Google, Azure)进行转录
  • 比较性能、延迟与成本

语言、口音与领域适应

  • 处理多种语言与口音
  • 自定义词汇与噪音容忍度
  • 法律、医学或技术语言的处理

输出格式与整合

  • 添加时间戳、标点符号与说话者标签
  • 导出为文本、SRT 或 JSON 格式
  • 将转录整合到 apps 或数据库中

Use Case 实作实验室

  • 转录会议、访谈或播客
  • 语音转文字指令系统
  • 视频/音频流的实时字幕

评估、限制与伦理

  • 准确性指标与模型基准测试
  • 语音模型中的偏见与公平性
  • 隐私与合规性考量

总结与下一步

要求

  • 对通用AI和机器学习概念的理解
  • 熟悉音频或媒体档案格式及工具

目标受众

  • 处理语音数据的数据科学家和AI工程师
  • 开发基于转录应用的软件开发者
  • 探索语音识别以实现自动化的组织
 14 小时

即将举行的公开课程

课程分类