课程大纲

Apache Airflow 简介

  • 什么是工作流编排
  • Apache Airflow 的主要功能和优势
  • Airflow 2.x 的改进和生态系统概述

架构与核心概念

  • 调度器、Web服务器和工作进程
  • DAGs、任务和操作符
  • 执行器和后端(Local、Celery、Kubernetes)

安装与设置

  • 在本地和云环境中安装 Airflow
  • 配置不同执行器的 Airflow
  • 设置元数据数据库和连接

导航 Airflow UI 和 CLI

  • 探索 Airflow 网页界面
  • 监控 DAG 运行、任务和日志
  • 使用 Airflow CLI 进行管理

编写和管理 DAGs

  • 使用 TaskFlow API 创建 DAGs
  • 使用操作符、传感器和钩子
  • 管理依赖关系和调度间隔

将 Airflow 与数据和云服务集成

  • 连接到数据库、API 和消息队列
  • 使用 Airflow 运行 ETL 管道
  • 云集成:AWS、GCP、Azure 操作符

监控与可观测性

  • 任务日志和实时监控
  • 使用 Prometheus 和 Grafana 的指标
  • 通过电子邮件或 Slack 发送警报和通知

保护 Apache Airflow

  • 基于角色的访问控制(RBAC)
  • 使用 LDAP、OAuth 和 SSO 进行身份验证
  • 使用 Vault 和云密钥管理存储管理密钥

扩展 Apache Airflow

  • 并行性、并发性和任务队列
  • 使用 CeleryExecutor 和 KubernetesExecutor
  • 使用 Helm 在 Kubernetes 上部署 Airflow

生产环境的最佳实践

  • DAGs 的版本控制和 CI/CD
  • 测试和调试 DAGs
  • 在大规模环境中保持可靠性和性能

故障排除与优化

  • 调试失败的 DAGs 和任务
  • 优化 DAG 性能
  • 常见陷阱及如何避免

总结与下一步

要求

  • 具备Python编程经验
  • 熟悉数据工程或DevOps概念
  • 了解ETL或工作流编排

受众

  • 数据科学家
  • 数据工程师
  • DevOps和基础设施工程师
  • 软件开发人员
 21 小时

客户评论 (7)

即将举行的公开课程

课程分类