课程大纲

Apache Airflow 基本面回顾

  • 核心概念:DAG、运算符和执行流程
  • Airflow 架构和元件
  • 了解高级使用案例和工作流程

创建自定义运算子

  • 了解 Airflow 运算子的剖结构
  • 为特定任务开发自定义运算符
  • 测试和调试自定义运算符

定制挂钩和感测器

  • 为外部系统集成实现钩子
  • 创建用于监控外部触发器的感测器
  • 使用自定义感测器增强工作流交互性

开发 Airflow 外挂程式

  • 了解外挂程式架构
  • 设计外挂程式以扩展 Airflow 功能
  • 管理和部署外挂程式的最佳实践

将 Airflow 与外部系统整合

  • 将 Airflow 连接到资料库、API 和云端服务
  • 将 Airflow 用于 ETL 工作流和即时数据处理
  • 管理 Airflow 和外部系统之间的依赖关系

高级调试和监控

  • 使用 Airflow 日志和指标进行故障排除
  • 为工作流问题配置警报和通知
  • 将外部监控工具与 Airflow 结合使用

优化性能和 Scala 能力

  • 使用 Celery 和 Kubernetes Executor 扩展 Airflow
  • 优化复杂工作流程中的资源利用率
  • 高可用性和容错策略

案例研究和实际应用

  • 探索数据工程和 DevOps 中的高级用例
  • 案例研究:大规模 ETL 的自定义运算子实现
  • 管理企业级工作流的最佳实践

总结和后续步骤

要求

  • 对 Apache Airflow 基础知识有深入的理解,包括 DAG、运算符和执行架构
  • 熟练掌握 Python 程式设计
  • 集成数据系统和工作流编排的经验

观众

  • 数据工程师
  • DevOps 工程师
  • 软体架构师
 21 小时

即将举行的公开课程

课程分类