课程大纲

音频分类基础

  • 声音事件类型:环境、机械、人为
  • 应用场景概述:监控、监测、自动化
  • 音频分类 vs 检测 vs 分割

音频数据与特征提取

  • 音频文件类型与格式
  • 采样率、窗口化、帧大小考虑
  • 提取MFCCs、色度特征、梅尔频谱图

数据准备与注释

  • UrbanSound8K、ESC-50及自定义数据集
  • 标记声音事件与时间边界
  • 平衡数据集与音频增强

构建音频分类模型

  • 使用卷积神经网络(CNNs)处理音频
  • 模型输入:原始波形 vs 特征
  • 损失函数、评估指标与过拟合

事件检测与时间定位

  • 基于帧与基于片段的检测策略
  • 使用阈值与平滑处理后期检测
  • 在音频时间线上可视化预测结果

高级主题与实时处理

  • 低数据场景下的迁移学习
  • 使用TensorFlow Lite或ONNX部署模型
  • 流媒体音频处理与延迟考虑

项目开发与应用场景

  • 设计完整流程:从数据摄取到分类
  • 开发监控、质量控制或监测的概念验证
  • 日志记录、警报与仪表板或API的集成

总结与下一步

要求

  • 了解机器学习概念和模型训练
  • 具备Python编程和数据预处理经验
  • 熟悉数字音频基础知识

受众

  • 数据科学家
  • 机器学习工程师
  • 音频信号处理领域的研究人员和开发者
 21 小时

即将举行的公开课程

课程分类