Apache Airflow for Data Science: Automating Machine Learning Pipelines 培训
Apache Airflow 是一个开源平台,用于编排工作流和自动化复杂的数据管道。
这种讲师指导的现场培训(在线或现场)面向希望自动化和管理机器学习工作流程的中级参与者,包括使用 Apache Airflow 进行模型训练、验证和部署。
在本次培训结束时,参与者将能够:
- 设置 Apache Airflow 用于机器学习工作流编排。
- 自动执行数据预处理、模型训练和验证任务。
- 将 Airflow 与机器学习框架和工具整合。
- 使用自动化管道部署机器学习模型。
- 监控和优化生产中的机器学习工作流程。
课程形式
- 互动讲座和讨论。
- 大量的练习和练习。
- 在即时实验室环境中动手实施。
课程自定义选项
- 要申请本课程的定制培训,请联系我们进行安排。
课程大纲
Machine Learning 的 Apache Airflow 简介
- Apache Airflow 概述及其与数据科学的相关性
- 自动化机器学习工作流程的主要功能
- 为数据科学项目设置 Airflow
使用 Airflow 构建 Machine Learning 管道
- 为端到端ML工作流设计DAG
- 使用运算符进行数据摄取、预处理和特征工程
- 计划和管理管道依赖关系
模型训练和验证
- 使用 Airflow 自动执行模型训练任务
- 将 Airflow 与 ML 框架集成(例如 TensorFlow、PyTorch)
- 验证模型并存储评估指标
模型部署和监控
- 使用自动化管道部署机器学习模型
- 使用 Airflow 任务监控已部署的模型
- 处理重新训练和模型更新
高级定制和整合
- 为 ML 特定任务开发自订运算元
- 将 Airflow 与云平台和 ML 服务整合
- 使用外挂程式和感测器扩展 Airflow 工作流
优化和扩展 ML 管道
- 提高大规模数据的工作流性能
- 使用 Celery 和 Kubernetes 扩展 Airflow 部署
- 生产级 ML 工作流的最佳实践
案例研究和实际应用
- 使用 Airflow 实现 ML 自动化的真实范例
- 动手练习:构建端到端ML管道
- 讨论 ML 工作流管理中的挑战和解决方案
总结和后续步骤
要求
- 熟悉机器学习工作流程和概念
- 对 Apache Airflow 有基本的了解,包括 DAG 和运算符
- 熟练掌握 Python 程式设计
观众
- 数据科学家
- 机器学习工程师
- AI 开发人员
需要帮助选择合适的课程吗?
Apache Airflow for Data Science: Automating Machine Learning Pipelines 培训 - Enquiry
即将举行的公开课程
相关课程
AdaBoost Python for Machine Learning
14 小时这种由 讲师指导的 中国 现场培训(在线或现场)面向希望使用 AdaBoost 构建机器学习提升演算法的数据科学家和软体工程师 Python。
在本次培训结束时,参与者将能够:
- 设置必要的开发环境,开始使用 AdaBoost 构建机器学习模型。
- 了解集成学习方法以及如何实现自适应提升。
- 在 Python 中了解如何构建 AdaBoost 模型来提升机器学习演算法。
- 使用超参数优化来提高 AdaBoost 模型的准确性和性能。
Anaconda Ecosystem for Data Scientists
14 小时这种由 讲师指导的 中国 现场培训(在线或现场)面向希望使用 Anaconda 生态系统在单一平台中捕获、管理和部署软体包和数据分析工作流 的数据科学家。
在本次培训结束时,参与者将能够:
- 安装和配置 Anaconda 个元件和库。
- 了解 Anaconda 的核心概念、功能和优势。
- 使用 Anaconda Navigator 管理包、环境和频道。
- 将 Conda、R 和 Python 包用于数据科学和机器学习。
- 了解管理多个数据环境的一些实际使用案例和技术。
AutoML with Auto-Keras
14 小时这种由 中国 的讲师指导式现场培训(在线或现场)面向数据科学家以及希望使用 Auto-Keras 来自动化选择和优化机器学习模型过程的技术人员。
在本次培训结束时,参与者将能够:
- 自动执行高效机器学习模型的训练过程。
- 自动搜索深度学习模型的最佳参数。
- 构建高度准确的机器学习模型。
- 利用机器学习的强大功能解决实际业务问题。
AutoML
14 小时这种由讲师指导的 中国 现场培训(在线或现场)面向具有机器学习背景的技术人员,他们希望优化用于检测大数据中复杂模式的机器学习模型。
在本次培训结束时,参与者将能够:
- 安装和评估各种开源 AutoML 工具(H2O AutoML、auto-sklearn、TPOT、TensorFlow、PyTorch、Auto-Keras、TPOT、Auto-WEKA 等)
- 训练高品质的机器学习模型。
- 高效解决不同类型的监督式机器学习问题。
- 只需编写必要的代码即可启动自动化机器学习过程。
Creating Custom Chatbots with Google AutoML
14 小时这种以讲师为主导的中国(在线或现场)现场培训面向具有不同专业水平的参与者,他们希望利用 Google 的 AutoML 平台为各种应用程序构建定制的聊天机器人。
在培训结束时,参与者将能够:
- 了解聊天机器人开发的基础知识。
- 浏览 Google 云平台并访问 AutoML。
- 为训练聊天机器人模型准备数据。
- 使用 AutoML 训练和评估自定义聊天机器人模型。
- 将聊天机器人部署并集成到各种平台和渠道中。
- 随时间推移监控和优化聊天机器人性能。
DataRobot
7 小时这种由 讲师指导的 中国 现场培训(在线或现场)面向希望使用 DataRobot 的机器学习功能自动化、评估和管理预测模型的数据科学家和数据分析师。
在本次培训结束时,参与者将能够:
- 在 DataRobot 中载入数据集以分析、评估和品质检查数据。
- 构建和训练模型以识别重要变数并满足预测目标。
- 解释模型以创建有助于做出业务决策的宝贵见解。
- 监控和管理模型以保持优化的预测性能。
Data Mining with Weka
14 小时此讲师指导的 中国 现场培训(在线或现场)面向希望使用 Weka 执行数据挖掘任务的初级到 中级数据分析师和数据科学家。
在本次培训结束时,参与者将能够:
- 安装并配置 Weka。
- 了解 Weka 环境和工作台。
- 使用 Weka 执行数据挖掘任务。
Google Cloud AutoML
7 小时这种讲师指导的 中国 现场培训(在线或现场)面向数据科学家、数据分析师和开发人员,他们希望探索 AutoML 产品和功能,以最少的工作量创建和部署自定义 ML 训练模型。
在本次培训结束时,参与者将能够:
- 探索 AutoML 产品线,为各种数据类型实施不同的服务。
- 准备和标记数据集以创建自定义 ML 模型。
- 训练和管理模型以生成准确、公平的机器学习模型。
- 使用经过训练的模型进行预测,以满足业务目标和需求。
Kaggle
14 小时这个由 讲师指导的 中国 现场培训(在线或现场)面向希望在 Data Science 中使用 Kaggle 学习和建立职业生涯的数据科学家和开发人员。
在本次培训结束时,参与者将能够:
- 了解数据科学和机器学习。
- 探索数据分析。
- 了解 Kaggle 及其工作原理。
Machine Learning for Mobile Apps using Google’s ML Kit
14 小时这种由讲师指导的现场培训(在线或现场)面向希望使用 Google ML Kit 构建针对行动装置上的处理进行了优化的机器学习模型的开发人员。
在本次培训结束时,参与者将能够:
- 设置必要的开发环境以开始为行动应用程式开发机器学习功能。
- 使用 ML Kit API 将新的机器学习技术集成到 Android 和 iOS 应用程式中。
- 使用 ML Kit SDK 增强和优化现有应用程式,以进行设备上的处理和部署。
Accelerating Python Pandas Workflows with Modin
14 小时这种由 讲师指导的 中国 现场现场培训(在线或现场)面向希望使用 Modin 构建和实施并行计算的数据科学家和开发人员 Pandas 以加快数据分析速度。
在本次培训结束时,参与者将能够:
- 设置必要的环境,开始使用 Modin 大规模开发 Pandas 工作流。
- 了解 Modin 的功能、架构和优势。
- 了解 Modin、Dask 和 Ray 之间的区别。
- 使用 Modin 更快地执行 Pandas 操作。
- 实现整个 Pandas API 和函数。
Machine Learning with Random Forest
14 小时这种由 中国 的讲师指导式实时培训(在线或现场)面向希望使用 Random Forest 为大型数据集构建机器学习演算法的数据科学家和软体工程师。
在本次培训结束时,参与者将能够:
- 设置必要的开发环境,开始使用 Random forest 构建机器学习模型。
- 了解 Random Forest 的优点以及如何实施它来解决分类和回归问题。
- 在 Random Forest 中了解如何处理大型数据集和解释多个决策树。
- 通过优化超参数来评估和优化机器学习模型的性能。
Advanced Analytics with RapidMiner
14 小时此讲师指导的 中国 现场培训(在线或现场)面向 希望学习如何使用 RapidMiner 估计和预测值并利用分析工具进行时间序列预测的中级数据分析师。
在本次培训结束时,参与者将能够:
- 学习应用 CRISP-DM 方法,选择合适的机器学习演算法,并增强模型构建和性能。
- 使用 RapidMiner 估计和预测值,并利用分析工具进行时间序列预测。
RapidMiner for Machine Learning and Predictive Analytics
14 小时RapidMiner 是一个开源数据科学软体平台,用于快速应用程式原型设计和开发。它包括用于数据准备、机器学习、深度学习、文本挖掘和预测分析的集成环境。
在这个由讲师指导的实时培训中,参与者将学习如何使用 RapidMiner Studio 进行数据准备、机器学习和预测模型部署。
在本次培训结束时,参与者将能够:
- 安装与设定RapidMiner
- 使用 RapidMiner 准备和可视化数据
- 验证机器学习模型
- 混搭数据并创建预测模型
- 在业务流程中实施预测分析
- 故障排除和优化 RapidMiner
观众
- 数据科学家
- 工程师
- 开发人员
课程形式
- 部分讲座、部分讨论、练习和大量动手实践
注意
- 要申请本课程的定制培训,请联系我们进行安排。
GPU Data Science with NVIDIA RAPIDS
14 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用RAPIDS构建GPU加速数据管道,工作流和可视化的数据科学家和开发人员,应用机器学习算法,如XGBoost,cuML等。
在培训结束时,参与者将能够:
- 设置必要的开发环境以使用 NVIDIA RAPIDS 构建数据模型。
- 了解 RAPIDS 的特性、组件和优势。
- 利用 GPU 加速端到端数据和分析管道。
- 使用 cuDF 和 Apache Arrow 实现 GPU 加速的数据准备和 ETL。
- 了解如何使用 XGBoost 和 cuML 算法执行机器学习任务。
- 使用 cuXfilter 和 cuGraph 构建数据可视化并执行图形分析。