Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）培训

Databricks是一个统一的Lakehouse平台，结合了Spark、Delta Lake和治理（Unity Catalog），支持可扩展的数据工程和分析工作流。

本课程为讲师指导的培训（线上或线下），面向具有数据工程背景的中级技术管理人员，旨在帮助他们使用Databricks、Spark、Delta Lake、Unity Catalog和原生工作流，将复杂的OLAP逻辑迁移到Lakehouse架构中。

完成本培训后，学员将能够：

解释Lakehouse架构和Bronze→Silver→Gold（Medallion）模式。
将存储过程逻辑转换为Spark DataFrame和笔记本实现。
使用Delta Lake设计和实现增量摄取、合并和优化例程。
使用Databricks Workflows构建端到端的编排管道，包括版本控制、测试和治理。

课程形式

密集的讲师指导课程，包含重点演示和讲解。
每日动手实验，使用代表性数据集和迁移练习。
指导代码审查、性能调优诊所和工作流编排实践。

课程定制选项

本课程可根据您的环境、数据集和治理需求进行定制，请联系我们安排定制化服务。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

介绍、目标和迁移策略

课程目标、学员角色定位和成功标准
高层迁移方法和风险考量
设置工作区、存储库和实验数据集

第1天 — 迁移基础与架构

Lakehouse概念、Delta Lake概述和Databricks架构
SMP与MPP的差异及其对迁移的影响
Medallion（Bronze→Silver→Gold）设计和Unity Catalog概述

第1天实验 — 转换存储过程

将示例存储过程迁移到笔记本的动手实验
将临时表和游标映射到DataFrame转换
验证并与原始输出进行比较

第2天 — 高级Delta Lake与增量加载

ACID事务、提交日志、版本控制和时间旅行
Auto Loader、MERGE INTO模式、upserts和模式演变
OPTIMIZE、VACUUM、Z-ORDER、分区和存储调优

第2天实验 — 增量摄取与优化

实现Auto Loader摄取和MERGE工作流
应用OPTIMIZE、Z-ORDER和VACUUM，验证结果
测量读写性能改进

第3天 — Databricks中的SQL、性能与调试

分析SQL功能：窗口函数、高阶函数、JSON/数组处理
解读Spark UI、DAGs、shuffles、stages、tasks和瓶颈诊断
查询调优模式：广播连接、提示、缓存和溢出减少

第3天实验 — SQL重构与性能调优

将复杂的SQL过程重构为优化的Spark SQL
使用Spark UI跟踪识别和解决倾斜和shuffle问题
基准测试前后并记录调优步骤

第4天 — 战术PySpark：替换过程逻辑

Spark执行模型：driver、executors、惰性评估和分区策略
将循环和游标转换为向量化DataFrame操作
模块化、UDFs/pandas UDFs、widgets和可重用库

第4天实验 — 重构过程脚本

将过程化ETL脚本重构为模块化PySpark笔记本
引入参数化、单元测试和可重用函数
代码审查和最佳实践清单应用

第5天 — 编排、端到端管道与最佳实践

Databricks Workflows：任务设计、任务依赖、触发器和错误处理
设计增量Medallion管道，包含质量规则和模式验证
与Git（GitHub/Azure DevOps）集成，CI和PySpark逻辑的测试策略

第5天实验 — 构建完整的端到端管道

使用Workflows组装Bronze→Silver→Gold管道
实现日志记录、审计、重试和自动化验证
运行完整管道，验证输出并准备部署文档

操作化、治理与生产准备

Unity Catalog治理、数据血统和访问控制最佳实践
成本、集群规模、自动扩展和任务并发模式
部署检查清单、回滚策略和运行手册创建

最终回顾、知识转移与后续步骤

学员展示迁移工作与经验教训
差距分析、推荐后续活动与培训材料交接
参考资料、进一步学习路径与支持选项

要求

具备数据工程概念的理解。
具备SQL和存储过程（Synapse/SQL Server）的经验。
熟悉ETL编排概念（ADF或类似工具）。

目标学员

具有数据工程背景的技术管理人员。
将OLAP逻辑迁移到Lakehouse模式的数据工程师。
负责Databricks采用的平台工程师。

35 小时

需要帮助选择合适的课程吗？

即将举行的公开课程

使用Azure Databricks进行金融领域的机器学习

7 小时

数据砖

14 小时

Databricks数据工程深度培训

350 小时

Data Analysis with Databricks for Finance

14 小时

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）培训

课程大纲

要求

即将举行的公开课程

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

课程分类

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化） 培训

课程大纲

要求

即将举行的公开课程

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）

相关课程

使用Azure Databricks进行金融领域的机器学习

数据砖

Databricks数据工程深度培训

Data Analysis with Databricks for Finance

课程分类

Databricks

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Databricks迁移工作坊：从存储过程到Lakehouse（5天强化）培训