课程大纲
Apache Airflow 简介
- 什么是工作流编排
- Apache Airflow 的主要功能和优势
- Airflow 2.x 的改进和生态系统概述
架构与核心概念
- 调度器、Web服务器和工作进程
- DAGs、任务和操作符
- 执行器和后端(Local、Celery、Kubernetes)
安装与设置
- 在本地和云环境中安装 Airflow
- 配置不同执行器的 Airflow
- 设置元数据数据库和连接
导航 Airflow UI 和 CLI
- 探索 Airflow 网页界面
- 监控 DAG 运行、任务和日志
- 使用 Airflow CLI 进行管理
编写和管理 DAGs
- 使用 TaskFlow API 创建 DAGs
- 使用操作符、传感器和钩子
- 管理依赖关系和调度间隔
将 Airflow 与数据和云服务集成
- 连接到数据库、API 和消息队列
- 使用 Airflow 运行 ETL 管道
- 云集成:AWS、GCP、Azure 操作符
监控与可观测性
- 任务日志和实时监控
- 使用 Prometheus 和 Grafana 的指标
- 通过电子邮件或 Slack 发送警报和通知
保护 Apache Airflow
- 基于角色的访问控制(RBAC)
- 使用 LDAP、OAuth 和 SSO 进行身份验证
- 使用 Vault 和云密钥管理存储管理密钥
扩展 Apache Airflow
- 并行性、并发性和任务队列
- 使用 CeleryExecutor 和 KubernetesExecutor
- 使用 Helm 在 Kubernetes 上部署 Airflow
生产环境的最佳实践
- DAGs 的版本控制和 CI/CD
- 测试和调试 DAGs
- 在大规模环境中保持可靠性和性能
故障排除与优化
- 调试失败的 DAGs 和任务
- 优化 DAG 性能
- 常见陷阱及如何避免
总结与下一步
要求
- 具备Python编程经验
- 熟悉数据工程或DevOps概念
- 了解ETL或工作流编排
受众
- 数据科学家
- 数据工程师
- DevOps和基础设施工程师
- 软件开发人员
客户评论 (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
课程 - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.