课程大纲

Speech Recognition 技术概览

  • 语音识别的历史与演变
  • 声学模型、语言模型与解码
  • 现代架构:RNNs、transformers 和 Whisper

音频预处理与转录基础

  • 处理音频格式与采样率
  • 音频的清理、修剪与分段
  • 从音频生成文本:实时与批量

Whisper 与其他 API 的实践

  • 安装与使用 OpenAI Whisper
  • 调用云 API(Google、Azure)进行转录
  • 比较性能、延迟与成本

语言、口音与领域适应

  • 处理多语言与口音
  • 自定义词汇与噪音容忍
  • 法律、医疗或技术语言处理

输出格式化与集成

  • 添加时间戳、标点符号与说话者标签
  • 导出为文本、SRT 或 JSON 格式
  • 将转录集成到 apps 或数据库中

Use Case 实现实验

  • 转录会议、采访或播客
  • 语音到文本命令系统
  • 视频/音频流的实时字幕

评估、限制与伦理

  • 准确性指标与模型基准测试
  • 语音模型中的偏见与公平性
  • 隐私与合规性考虑

总结与下一步

要求

  • 了解通用人工智能和机器学习概念
  • 熟悉音频或媒体文件格式及工具

目标受众

  • 处理语音数据的数据科学家和AI工程师
  • 开发基于转录应用的软件开发人员
  • 探索语音识别以实现自动化的组织
 14 小时

即将举行的公开课程

课程分类