感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍、目标和迁移策略
- 课程目标、参与者角色对齐和成功标准
- 高级迁移方法和风险考虑
- 设置工作区、存储库和实验室数据集
第1天 — 迁移基础与架构
- Lakehouse概念、Delta Lake概述和Databricks架构
- SMP与MPP的区别及对迁移的影响
- Medallion(Bronze→Silver→Gold)设计和Unity Catalog概述
第1天实验 — 转换存储过程
- 将示例存储过程迁移到笔记本的实践操作
- 将临时表和游标映射到DataFrame转换
- 验证并与原始输出进行比较
第2天 — 高级Delta Lake与增量加载
- ACID事务、提交日志、版本控制和时间旅行
- Auto Loader、MERGE INTO模式、更新插入和模式演化
- OPTIMIZE、VACUUM、Z-ORDER、分区和存储调优
第2天实验 — 增量摄取与优化
- 实现Auto Loader摄取和MERGE工作流
- 应用OPTIMIZE、Z-ORDER和VACUUM,验证结果
- 测量读写性能改进
第3天 — Databricks中的SQL、性能与调试
- 分析SQL功能:窗口函数、高阶函数、JSON/数组处理
- 解读Spark UI、DAG、Shuffle、阶段、任务和瓶颈诊断
- 查询调优模式:广播连接、提示、缓存和减少溢出
第3天实验 — SQL重构与性能调优
- 将复杂的SQL过程重构为优化的Spark SQL
- 使用Spark UI跟踪识别并修复数据倾斜和Shuffle问题
- 基准测试前后对比,并记录调优步骤
第4天 — 战术PySpark:替换过程逻辑
- Spark执行模型:驱动、执行器、惰性求值和分区策略
- 将循环和游标转换为向量化的DataFrame操作
- 模块化、UDF/pandas UDF、小部件和可重用库
第4天实验 — 重构过程脚本
- 将过程ETL脚本重构为模块化PySpark笔记本
- 引入参数化、单元测试和可重用函数
- 代码审查和最佳实践清单应用
第5天 — 编排、端到端管道与最佳实践
- Databricks工作流:任务设计、任务依赖、触发器和错误处理
- 设计带有质量规则和模式验证的增量Medallion管道
- 与Git(GitHub/Azure DevOps)集成,CI和PySpark逻辑测试策略
第5天实验 — 构建完整的端到端管道
- 使用工作流编排的Bronze→Silver→Gold管道
- 实现日志记录、审计、重试和自动验证
- 运行完整管道,验证输出并准备部署说明
操作化、治理与生产准备
- Unity Catalog治理、数据血缘和访问控制最佳实践
- 成本、集群规模、自动扩展和任务并发模式
- 部署清单、回滚策略和运行手册创建
最终回顾、知识传递与后续步骤
- 参与者展示迁移工作与经验教训
- 差距分析、建议的后续活动和培训材料交接
- 参考资料、进一步学习路径和支持选项
要求
- 了解数据工程概念
- 具备SQL和存储过程经验(Synapse/SQL Server)
- 熟悉ETL编排概念(ADF或类似工具)
受众
- 具有数据工程背景的技术经理
- 将OLAP逻辑迁移到Lakehouse模式的数据工程师
- 负责Databricks采用的平台工程师
35 小时