课程大纲

语音合成与语音克隆入门

  • 文字转语音(TTS)与神经语音合成概述
  • 语音克隆与语音生成:应用场景与界限
  • 关键模型:Tacotron、WaveNet、FastSpeech、VITS

使用商业平台

  • 使用 ElevenLabs 和 Resemble AI
  • 语音创建、克隆与编辑
  • API 访问与文字转语音工作流程

使用开源工具进行开发

  • 安装与配置 Coqui TTS
  • 训练自定义语音并管理数据集
  • 生成具有精细控制的语音(音高、速度、情感)

数据准备与语音数据集 Management

  • 收集与清理语音样本
  • 分段、标签与对齐转录
  • 伦理来源与语音同意

应用集成

  • 将 TTS 嵌入网站与应用程序
  • 创建 IVR 系统与互动机器人
  • 为视频与游戏生成合成对话

评估质量与真实感

  • MOS(平均意见分数)与可懂度测试
  • 控制表现力与语调
  • 比较延迟、保真度与真实感

伦理、法律与Go治理考量

  • 深伪风险与负责任使用
  • 同意、署名与版权影响
  • 法规与组织政策

总结与下一步

要求

  • 了解机器学习基础知识
  • 熟悉音频文件格式和编辑工具
  • 具备基本的Python编程技能

目标受众

  • 对语音合成感兴趣的AI开发者和工程师
  • 探索语音生成的内容创作者和媒体技术专家
  • 构建个性化或动态音频系统的研发团队
 14 小时

即将举行的公开课程

课程分类