课程大纲

介绍

Scala 编程深度回顾

  • 语法和结构
  • 流量控制和功能

Spark 内部结构

  • 弹性分布式数据集 (RDD)
  • Spark 脚本到图形到群集

Spark Streaming概述

  • 流式处理体系结构
  • 流式处理中的间隔
  • 容错

准备开发环境

  • 安装和配置 Apache Spark
  • 安装和配置 Scala IDE
  • 安装和配置 JDK

Spark Streaming 初级到高级

  • 使用键/值 RDD
  • 过滤 RDD
  • 使用正则表达式改进 Spark 脚本
  • 在集群上共享数据
  • 使用网络数据集
  • 实现BFS算法
  • 创建 Spark 驱动程序脚本
  • 使用脚本进行实时跟踪
  • 编写连续应用程序
  • 流式线性回归
  • 使用 Spark Machine Learning 库

Spark 和群集

  • 使用 SBT 工具捆绑依赖项和 Spark 脚本
  • 使用 EMR 说明集群
  • 通过对 RDD 进行分区进行优化
  • 使用 Spark 日志

集成在 Spark Streaming 中

  • 集成 Apache Kafka 并使用 Kafka 主题
  • 集成 Apache Fume 并使用基于拉取/基于推送的 Flume 配置
  • 编写自定义接收器类
  • 集成 Cassandra 并将数据公开为实时服务

生产中

  • 打包应用程序并使用 Spark-Submit 运行它
  • 故障排除、优化和调试 Spark 作业和群集

总结和结论

要求

  • Programming 和脚本编写经验

观众

  • 软件工程师
 21 小时

人数



每位参与者的报价

客户评论 (5)

相关课程

课程分类