课程大纲
-
Scala入门
- Scala快速介绍
- 实验:了解Scala
-
Spark基础
- 背景与历史
- Spark与Hadoop
- Spark概念与架构
- Spark生态系统(核心、Spark SQL、MLlib、Streaming)
- 实验:安装与运行Spark
-
初识Spark
- 在本地模式下运行Spark
- Spark Web UI
- Spark shell
- 数据集分析 – 第一部分
- 检查RDDs
- 实验:探索Spark shell
-
RDDs
- RDDs概念
- 分区
- RDD操作/转换
- RDD类型
- 键值对RDDs
- 在RDD上执行MapReduce
- 缓存与持久化
- 实验:创建与检查RDDs;缓存RDDs
-
Spark API编程
- Spark API/RDD API介绍
- 提交第一个Spark程序
- 调试/日志记录
- 配置属性
- 实验:Spark API编程,提交任务
-
Spark SQL
- Spark中的SQL支持
- 数据框
- 定义表并导入数据集
- 使用SQL查询数据框
- 存储格式:JSON/Parquet
- 实验:创建与查询数据框;评估数据格式
-
MLlib
- MLlib介绍
- MLlib算法
- 实验:编写MLib应用程序
-
GraphX
- GraphX库概述
- GraphX APIs
- 实验:使用Spark处理图数据
-
Spark Streaming
- 流处理概述
- 评估流处理平台
- 流处理操作
- 滑动窗口操作
- 实验:编写Spark流处理应用程序
-
Spark与Hadoop
- Hadoop介绍(HDFS/YARN)
- Hadoop + Spark架构
- 在Hadoop YARN上运行Spark
- 使用Spark处理HDFS文件
-
Spark性能与调优
- 广播变量
- 累加器
- 内存管理与缓存
-
Spark运维
- 在生产环境中部署Spark
- 示例部署模板
- 配置
- 监控
- 故障排除
要求
先决条件
熟悉Java、Scala或Python语言(我们的实验使用Scala和Python)
对Linux开发环境有基本了解(使用VI或nano进行命令行导航/编辑文件)
客户评论 (6)
通过不同的方式完成类似的练习,确实有助于理解每个组件(Hadoop/Spark,独立/集群)单独和一起工作时能做什么。这让我想到了在本地机器上开发时与部署到集群上时,应该如何测试我的应用程序。
Thomas Carcaud - IT Frankfurt GmbH
课程 - Spark for Developers
机器翻译
Ajay非常友好,乐于助人,并且对他所讨论的主题非常了解。
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
课程 - Spark for Developers
机器翻译
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
课程 - Spark for Developers
机器翻译
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
课程 - Spark for Developers
机器翻译
We know a lot more about the whole environment.
John Kidd
课程 - Spark for Developers
机器翻译
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
课程 - Spark for Developers
机器翻译