课程大纲
-
Scala入门
- Scala快速介绍
- 实验:了解Scala
-
Spark基础
- 背景与历史
- Spark与Hadoop
- Spark概念与架构
- Spark生态系统(核心、Spark SQL、MLlib、Streaming)
- 实验:安装与运行Spark
-
初识Spark
- 在本地模式下运行Spark
- Spark Web UI
- Spark shell
- 数据集分析 – 第一部分
- 检查RDDs
- 实验:探索Spark shell
-
RDDs
- RDDs概念
- 分区
- RDD操作/转换
- RDD类型
- 键值对RDDs
- 在RDD上执行MapReduce
- 缓存与持久化
- 实验:创建与检查RDDs;缓存RDDs
-
Spark API编程
- Spark API/RDD API介绍
- 提交第一个Spark程序
- 调试/日志记录
- 配置属性
- 实验:Spark API编程,提交任务
-
Spark SQL
- Spark中的SQL支持
- 数据框
- 定义表并导入数据集
- 使用SQL查询数据框
- 存储格式:JSON/Parquet
- 实验:创建与查询数据框;评估数据格式
-
MLlib
- MLlib介绍
- MLlib算法
- 实验:编写MLib应用程序
-
GraphX
- GraphX库概述
- GraphX APIs
- 实验:使用Spark处理图数据
-
Spark Streaming
- 流处理概述
- 评估流处理平台
- 流处理操作
- 滑动窗口操作
- 实验:编写Spark流处理应用程序
-
Spark与Hadoop
- Hadoop介绍(HDFS/YARN)
- Hadoop + Spark架构
- 在Hadoop YARN上运行Spark
- 使用Spark处理HDFS文件
-
Spark性能与调优
- 广播变量
- 累加器
- 内存管理与缓存
-
Spark运维
- 在生产环境中部署Spark
- 示例部署模板
- 配置
- 监控
- 故障排除
要求
先决条件
熟悉 Java / Scala / Python 语言(我们的 Scala 和 Python 实验室) 对Linux开发环境有基本的了解(命令行导航/使用VI或nano编辑文件)
客户评论 (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
课程 - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
课程 - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
课程 - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
课程 - Spark for Developers
We know a lot more about the whole environment.
John Kidd
课程 - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.