课程大纲

介绍

  • Apache Beam vs MapReduce、Spark Streaming、Kafka Streaming、Storm 和 Flink

安装和配置 Apache Beam

Apache Beam 功能和体系结构概述

  • 梁模型、SDK、梁管线流道
  • 分布式处理后端

了解 Apache Beam Programming 模型

  • 管道的执行方式

运行示例管道

  • 准备 WordCount 管道
  • 在本地执行流水线

设计管道

  • 规划结构、选择转换以及确定输入和输出方法

创建管道

  • 编写驱动程序并定义管道
  • 使用 Apache Beam 类
  • 数据集、转换、I/O、数据编码等。

执行流水线

  • 在本地、远程计算机和公有云上执行管道
  • 选择跑步者
  • 特定于流道的配置

测试与调试 Apache Beam

  • 使用类型提示模拟静态类型
  • 管理 Python 流水线依赖关系

处理有界和无界数据集

  • 窗口化和触发器

使管道可重用和维护

创建新的数据源和接收器

  • Apache Beam 源和接收器 API

将 Apache Beam 与其他 Big Data 系统集成

  • Apache Hadoop, Apache Spark, Apache Kafka

故障 排除

总结和结论

要求

  • 具有 Python 编程经验。
  • 具有 Linux 命令行的经验。

观众

  • 开发 人员
  14 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.

每位参与者的报价

客户评论 (1)

相关课程

课程分类