感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍、目标和迁移策略
- 课程目标、学员角色定位和成功标准
- 高层迁移方法和风险考量
- 设置工作区、存储库和实验数据集
第1天 — 迁移基础与架构
- Lakehouse概念、Delta Lake概述和Databricks架构
- SMP与MPP的差异及其对迁移的影响
- Medallion(Bronze→Silver→Gold)设计和Unity Catalog概述
第1天实验 — 转换存储过程
- 将示例存储过程迁移到笔记本的动手实验
- 将临时表和游标映射到DataFrame转换
- 验证并与原始输出进行比较
第2天 — 高级Delta Lake与增量加载
- ACID事务、提交日志、版本控制和时间旅行
- Auto Loader、MERGE INTO模式、upserts和模式演变
- OPTIMIZE、VACUUM、Z-ORDER、分区和存储调优
第2天实验 — 增量摄取与优化
- 实现Auto Loader摄取和MERGE工作流
- 应用OPTIMIZE、Z-ORDER和VACUUM,验证结果
- 测量读写性能改进
第3天 — Databricks中的SQL、性能与调试
- 分析SQL功能:窗口函数、高阶函数、JSON/数组处理
- 解读Spark UI、DAGs、shuffles、stages、tasks和瓶颈诊断
- 查询调优模式:广播连接、提示、缓存和溢出减少
第3天实验 — SQL重构与性能调优
- 将复杂的SQL过程重构为优化的Spark SQL
- 使用Spark UI跟踪识别和解决倾斜和shuffle问题
- 基准测试前后并记录调优步骤
第4天 — 战术PySpark:替换过程逻辑
- Spark执行模型:driver、executors、惰性评估和分区策略
- 将循环和游标转换为向量化DataFrame操作
- 模块化、UDFs/pandas UDFs、widgets和可重用库
第4天实验 — 重构过程脚本
- 将过程化ETL脚本重构为模块化PySpark笔记本
- 引入参数化、单元测试和可重用函数
- 代码审查和最佳实践清单应用
第5天 — 编排、端到端管道与最佳实践
- Databricks Workflows:任务设计、任务依赖、触发器和错误处理
- 设计增量Medallion管道,包含质量规则和模式验证
- 与Git(GitHub/Azure DevOps)集成,CI和PySpark逻辑的测试策略
第5天实验 — 构建完整的端到端管道
- 使用Workflows组装Bronze→Silver→Gold管道
- 实现日志记录、审计、重试和自动化验证
- 运行完整管道,验证输出并准备部署文档
操作化、治理与生产准备
- Unity Catalog治理、数据血统和访问控制最佳实践
- 成本、集群规模、自动扩展和任务并发模式
- 部署检查清单、回滚策略和运行手册创建
最终回顾、知识转移与后续步骤
- 学员展示迁移工作与经验教训
- 差距分析、推荐后续活动与培训材料交接
- 参考资料、进一步学习路径与支持选项
要求
- 具备数据工程概念的理解。
- 具备SQL和存储过程(Synapse/SQL Server)的经验。
- 熟悉ETL编排概念(ADF或类似工具)。
目标学员
- 具有数据工程背景的技术管理人员。
- 将OLAP逻辑迁移到Lakehouse模式的数据工程师。
- 负责Databricks采用的平台工程师。
35 小时