感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
第1周 — 数据工程简介
- 数据工程基础与现代数据栈
- 数据摄取模式与数据源
- 批处理与流处理概念及用例
- 实践实验室:将示例数据摄取到云存储
第2周 — Databricks Lakehouse Foundation 徽章
- Databricks 平台基础与工作区导航
- Delta Lake 概念:ACID、时间旅行与模式演进
- 工作区安全、访问控制与 Unity Catalog 基础
- 实践实验室:Delta 表创建与管理
第3周 — Databricks 高级SQL
- 高级SQL构造与大规模窗口函数
- 查询优化、执行计划与成本感知模式
- 物化视图、缓存与性能调优
- 实践实验室:优化大数据集上的分析查询
第4周 — Databricks 认证的 Apache Spark 开发者(准备)
- Spark 架构、RDDs、DataFrames 与 Datasets 深入探讨
- 关键Spark转换与操作;性能考虑
- Spark 流处理基础与结构化流模式
- 练习考试题目与实践测试问题
第5周 — 数据建模简介
- 概念:维度建模、星型/雪花型模式设计与规范化
- Lakehouse 建模与传统数据仓库方法
- 面向分析就绪数据集的设计模式
- 实践实验室:构建可消费的表与视图
第6周 — 导入工具与数据摄取自动化简介
- Databricks 的连接器与摄取工具(AWS Glue、Data Factory、Kafka)
- 流摄取模式与微批处理设计
- 数据验证、质量检查与模式强制
- 实践实验室:构建弹性摄取管道
第7周 — Git Flow 与数据工程的 CI/CD 简介
- Git Flow 分支策略与仓库组织
- 笔记本、作业与基础设施即代码的 CI/CD 管道
- 数据代码的测试、代码检查与部署自动化
- 实践实验室:实现基于 Git 的工作流与自动化作业部署
第8周 — Databricks 认证数据工程师助理(准备)与数据工程模式
- 认证主题回顾与实践练习
- 架构模式:青铜/白银/黄金、CDC、缓慢变化维度
- 操作模式:监控、警报与数据血缘
- 实践实验室:应用工程模式的端到端管道
第9周 — Airflow 与 Astronomer 简介;脚本编写
- Airflow 概念:DAGs、任务、操作符与调度
- Astronomer 平台概述与编排最佳实践
- 自动化脚本编写:数据任务的 Python 脚本模式
- 实践实验室:使用 Airflow DAGs 编排 Databricks 作业
第10周 — 数据可视化、Tableau 与定制化最终项目
- 将 Tableau 连接到 Databricks 与 BI 层最佳实践
- 仪表板设计原则与性能感知的可视化
- 顶点项目:定制化最终项目的范围确定、实施与展示
- 最终展示、同行评审与导师反馈
总结与下一步
要求
- 了解基本的SQL和数据概念
- 具备Python或Scala编程经验
- 熟悉云服务和虚拟环境
受众
- 有志于从事数据工程的人员及在职数据工程师
- ETL/BI开发人员和数据分析工程师
- 支持数据管道的平台和DevOps团队
350 小时