课程大纲

介绍

Spark Streaming 功能和体系结构概述

  • 支持的数据源
  • 核心 API

准备环境

  • 依赖
  • Spark 和流式处理上下文
  • 连接到 Kafka

处理消息

  • 将入站消息解析为 JSON
  • ETL 过程
  • 启动流式处理上下文

执行窗口化 Stream Processing

  • 滑动间隔
  • 检查点交付配置
  • 启动环境

处理代码的原型设计

  • 连接到 Kafka 主题
  • 使用 Paw 从数据源检索 JSON
  • 变化和附加处理

流式传输代码

  • 作业控制变量
  • 定义要匹配的值
  • 功能和条件

获取流输出

  • 计数器
  • Kafka 输出(匹配和非匹配)

故障 排除

总结和结论

要求

  • 具有 Python 和 Apache Kafka 的经验
  • 熟悉流处理平台

观众

  • 数据工程师
  • 数据科学家
  • 程序员
  7 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (4)

相关课程

课程分类