课程大纲

介绍、目标和迁移策略

  • 课程目标、学员角色定位和成功标准
  • 高层迁移方法和风险考量
  • 设置工作区、存储库和实验数据集

第1天 — 迁移基础与架构

  • Lakehouse概念、Delta Lake概述和Databricks架构
  • SMP与MPP的差异及其对迁移的影响
  • Medallion(Bronze→Silver→Gold)设计和Unity Catalog概述

第1天实验 — 转换存储过程

  • 将示例存储过程迁移到笔记本的动手实验
  • 将临时表和游标映射到DataFrame转换
  • 验证并与原始输出进行比较

第2天 — 高级Delta Lake与增量加载

  • ACID事务、提交日志、版本控制和时间旅行
  • Auto Loader、MERGE INTO模式、upserts和模式演变
  • OPTIMIZE、VACUUM、Z-ORDER、分区和存储调优

第2天实验 — 增量摄取与优化

  • 实现Auto Loader摄取和MERGE工作流
  • 应用OPTIMIZE、Z-ORDER和VACUUM,验证结果
  • 测量读写性能改进

第3天 — Databricks中的SQL、性能与调试

  • 分析SQL功能:窗口函数、高阶函数、JSON/数组处理
  • 解读Spark UI、DAGs、shuffles、stages、tasks和瓶颈诊断
  • 查询调优模式:广播连接、提示、缓存和溢出减少

第3天实验 — SQL重构与性能调优

  • 将复杂的SQL过程重构为优化的Spark SQL
  • 使用Spark UI跟踪识别和解决倾斜和shuffle问题
  • 基准测试前后并记录调优步骤

第4天 — 战术PySpark:替换过程逻辑

  • Spark执行模型:driver、executors、惰性评估和分区策略
  • 将循环和游标转换为向量化DataFrame操作
  • 模块化、UDFs/pandas UDFs、widgets和可重用库

第4天实验 — 重构过程脚本

  • 将过程化ETL脚本重构为模块化PySpark笔记本
  • 引入参数化、单元测试和可重用函数
  • 代码审查和最佳实践清单应用

第5天 — 编排、端到端管道与最佳实践

  • Databricks Workflows:任务设计、任务依赖、触发器和错误处理
  • 设计增量Medallion管道,包含质量规则和模式验证
  • 与Git(GitHub/Azure DevOps)集成,CI和PySpark逻辑的测试策略

第5天实验 — 构建完整的端到端管道

  • 使用Workflows组装Bronze→Silver→Gold管道
  • 实现日志记录、审计、重试和自动化验证
  • 运行完整管道,验证输出并准备部署文档

操作化、治理与生产准备

  • Unity Catalog治理、数据血统和访问控制最佳实践
  • 成本、集群规模、自动扩展和任务并发模式
  • 部署检查清单、回滚策略和运行手册创建

最终回顾、知识转移与后续步骤

  • 学员展示迁移工作与经验教训
  • 差距分析、推荐后续活动与培训材料交接
  • 参考资料、进一步学习路径与支持选项

要求

  • 具备数据工程概念的理解。
  • 具备SQL和存储过程(Synapse/SQL Server)的经验。
  • 熟悉ETL编排概念(ADF或类似工具)。

目标学员

  • 具有数据工程背景的技术管理人员。
  • 将OLAP逻辑迁移到Lakehouse模式的数据工程师。
  • 负责Databricks采用的平台工程师。
 35 小时

即将举行的公开课程

课程分类