课程大纲

第1周 — 数据工程简介

  • 数据工程基础与现代数据栈
  • 数据摄取模式与数据源
  • 批处理与流处理概念及用例
  • 实践实验室:将示例数据摄取到云存储

第2周 — Databricks Lakehouse Foundation 徽章

  • Databricks 平台基础与工作区导航
  • Delta Lake 概念:ACID、时间旅行与模式演进
  • 工作区安全、访问控制与 Unity Catalog 基础
  • 实践实验室:Delta 表创建与管理

第3周 — Databricks 高级SQL

  • 高级SQL构造与大规模窗口函数
  • 查询优化、执行计划与成本感知模式
  • 物化视图、缓存与性能调优
  • 实践实验室:优化大数据集上的分析查询

第4周 — Databricks 认证的 Apache Spark 开发者(准备)

  • Spark 架构、RDDs、DataFrames 与 Datasets 深入探讨
  • 关键Spark转换与操作;性能考虑
  • Spark 流处理基础与结构化流模式
  • 练习考试题目与实践测试问题

第5周 — 数据建模简介

  • 概念:维度建模、星型/雪花型模式设计与规范化
  • Lakehouse 建模与传统数据仓库方法
  • 面向分析就绪数据集的设计模式
  • 实践实验室:构建可消费的表与视图

第6周 — 导入工具与数据摄取自动化简介

  • Databricks 的连接器与摄取工具(AWS Glue、Data Factory、Kafka)
  • 流摄取模式与微批处理设计
  • 数据验证、质量检查与模式强制
  • 实践实验室:构建弹性摄取管道

第7周 — Git Flow 与数据工程的 CI/CD 简介

  • Git Flow 分支策略与仓库组织
  • 笔记本、作业与基础设施即代码的 CI/CD 管道
  • 数据代码的测试、代码检查与部署自动化
  • 实践实验室:实现基于 Git 的工作流与自动化作业部署

第8周 — Databricks 认证数据工程师助理(准备)与数据工程模式

  • 认证主题回顾与实践练习
  • 架构模式:青铜/白银/黄金、CDC、缓慢变化维度
  • 操作模式:监控、警报与数据血缘
  • 实践实验室:应用工程模式的端到端管道

第9周 — Airflow 与 Astronomer 简介;脚本编写

  • Airflow 概念:DAGs、任务、操作符与调度
  • Astronomer 平台概述与编排最佳实践
  • 自动化脚本编写:数据任务的 Python 脚本模式
  • 实践实验室:使用 Airflow DAGs 编排 Databricks 作业

第10周 — 数据可视化、Tableau 与定制化最终项目

  • 将 Tableau 连接到 Databricks 与 BI 层最佳实践
  • 仪表板设计原则与性能感知的可视化
  • 顶点项目:定制化最终项目的范围确定、实施与展示
  • 最终展示、同行评审与导师反馈

总结与下一步

要求

  • 了解基本的SQL和数据概念
  • 具备Python或Scala编程经验
  • 熟悉云服务和虚拟环境

受众

  • 有志于从事数据工程的人员及在职数据工程师
  • ETL/BI开发人员和数据分析工程师
  • 支持数据管道的平台和DevOps团队
 350 小时

即将举行的公开课程

课程分类