课程大纲

介绍、目标和迁移策略

  • 课程目标、参与者角色对齐和成功标准
  • 高级迁移方法和风险考虑
  • 设置工作区、存储库和实验室数据集

第1天 — 迁移基础与架构

  • Lakehouse概念、Delta Lake概述和Databricks架构
  • SMP与MPP的区别及对迁移的影响
  • Medallion(Bronze→Silver→Gold)设计和Unity Catalog概述

第1天实验 — 转换存储过程

  • 将示例存储过程迁移到笔记本的实践操作
  • 将临时表和游标映射到DataFrame转换
  • 验证并与原始输出进行比较

第2天 — 高级Delta Lake与增量加载

  • ACID事务、提交日志、版本控制和时间旅行
  • Auto Loader、MERGE INTO模式、更新插入和模式演化
  • OPTIMIZE、VACUUM、Z-ORDER、分区和存储调优

第2天实验 — 增量摄取与优化

  • 实现Auto Loader摄取和MERGE工作流
  • 应用OPTIMIZE、Z-ORDER和VACUUM,验证结果
  • 测量读写性能改进

第3天 — Databricks中的SQL、性能与调试

  • 分析SQL功能:窗口函数、高阶函数、JSON/数组处理
  • 解读Spark UI、DAG、Shuffle、阶段、任务和瓶颈诊断
  • 查询调优模式:广播连接、提示、缓存和减少溢出

第3天实验 — SQL重构与性能调优

  • 将复杂的SQL过程重构为优化的Spark SQL
  • 使用Spark UI跟踪识别并修复数据倾斜和Shuffle问题
  • 基准测试前后对比,并记录调优步骤

第4天 — 战术PySpark:替换过程逻辑

  • Spark执行模型:驱动、执行器、惰性求值和分区策略
  • 将循环和游标转换为向量化的DataFrame操作
  • 模块化、UDF/pandas UDF、小部件和可重用库

第4天实验 — 重构过程脚本

  • 将过程ETL脚本重构为模块化PySpark笔记本
  • 引入参数化、单元测试和可重用函数
  • 代码审查和最佳实践清单应用

第5天 — 编排、端到端管道与最佳实践

  • Databricks工作流:任务设计、任务依赖、触发器和错误处理
  • 设计带有质量规则和模式验证的增量Medallion管道
  • 与Git(GitHub/Azure DevOps)集成,CI和PySpark逻辑测试策略

第5天实验 — 构建完整的端到端管道

  • 使用工作流编排的Bronze→Silver→Gold管道
  • 实现日志记录、审计、重试和自动验证
  • 运行完整管道,验证输出并准备部署说明

操作化、治理与生产准备

  • Unity Catalog治理、数据血缘和访问控制最佳实践
  • 成本、集群规模、自动扩展和任务并发模式
  • 部署清单、回滚策略和运行手册创建

最终回顾、知识传递与后续步骤

  • 参与者展示迁移工作与经验教训
  • 差距分析、建议的后续活动和培训材料交接
  • 参考资料、进一步学习路径和支持选项

要求

  • 了解数据工程概念
  • 具备SQL和存储过程经验(Synapse/SQL Server)
  • 熟悉ETL编排概念(ADF或类似工具)

受众

  • 具有数据工程背景的技术经理
  • 将OLAP逻辑迁移到Lakehouse模式的数据工程师
  • 负责Databricks采用的平台工程师
 35 小时

即将举行的公开课程

课程分类