课程大纲

  1. Scala入门

    • Scala快速介绍
    • 实验:了解Scala
  2. Spark基础

    • 背景与历史
    • Spark与Hadoop
    • Spark概念与架构
    • Spark生态系统(核心、Spark SQL、MLlib、Streaming)
    • 实验:安装与运行Spark
  3. 初识Spark

    • 在本地模式下运行Spark
    • Spark Web UI
    • Spark shell
    • 数据集分析 – 第一部分
    • 检查RDDs
    • 实验:探索Spark shell
  4. RDDs

    • RDDs概念
    • 分区
    • RDD操作/转换
    • RDD类型
    • 键值对RDDs
    • 在RDD上执行MapReduce
    • 缓存与持久化
    • 实验:创建与检查RDDs;缓存RDDs
  5. Spark API编程

    • Spark API/RDD API介绍
    • 提交第一个Spark程序
    • 调试/日志记录
    • 配置属性
    • 实验:Spark API编程,提交任务
  6. Spark SQL

    • Spark中的SQL支持
    • 数据框
    • 定义表并导入数据集
    • 使用SQL查询数据框
    • 存储格式:JSON/Parquet
    • 实验:创建与查询数据框;评估数据格式
  7. MLlib

    • MLlib介绍
    • MLlib算法
    • 实验:编写MLib应用程序
  8. GraphX

    • GraphX库概述
    • GraphX APIs
    • 实验:使用Spark处理图数据
  9. Spark Streaming

    • 流处理概述
    • 评估流处理平台
    • 流处理操作
    • 滑动窗口操作
    • 实验:编写Spark流处理应用程序
  10. Spark与Hadoop

    • Hadoop介绍(HDFS/YARN)
    • Hadoop + Spark架构
    • 在Hadoop YARN上运行Spark
    • 使用Spark处理HDFS文件
  11. Spark性能与调优

    • 广播变量
    • 累加器
    • 内存管理与缓存
  12. Spark运维

    • 在生产环境中部署Spark
    • 示例部署模板
    • 配置
    • 监控
    • 故障排除

要求

先决条件

熟悉 Java / Scala / Python 语言(我们的 Scala 和 Python 实验室) 对Linux开发环境有基本的了解(命令行导航/使用VI或nano编辑文件)

 21 小时

客户评论 (6)

即将举行的公开课程

课程分类