课程大纲
-
Scala 入门
Scala 简介
实验室:了解 Scala
Spark 基础知识
背景和历史
Spark 和 Hadoop
Spark 概念和体系结构
Spark 生态系统(core、spark sql、mlib、streaming)
实验室:安装和运行 Spark
初探 Spark
在本地模式下运行 Spark
Spark Web 用户界面
火花壳
分析数据集 – 第 1 部分
检查 RDD
实验室:Spark shell 探索
RDD的
RDD 概念
分区
RDD 操作/转换
RDD 类型
键值对 RDD
RDD上的MapReduce
缓存和持久性
实验室:创建和检查RDD; 缓存 RDD
Spark API 编程
Spark API / RDD API 简介
向 Spark 提交第一个程序
调试/日志记录
配置属性
实验室:在Spark API中编程,提交作业
火花 SQL
SQL Spark 中的支持
数据帧
定义表和导入数据集
使用 SQL 查询数据框
存储格式 : JSON / Parquet
实验室:创建和查询数据框;评估数据格式
MLlib 中
MLlib 简介
MLlib 算法
实验室:编写 MLib 应用程序
图形X
GraphX 库概述
GraphX 接口
实验室:使用Spark处理图形数据
Spark 流式处理
流式处理概述
评估流媒体平台
流式处理操作
滑动窗口操作
实验室:编写 spark 流式处理应用程序
Spark 和 Hadoop
Hadoop 简介 (HDFS / YARN)
Hadoop + Spark 架构
在 Hadoop YARN 上运行 Spark
使用 Spark 处理 HDFS 文件
Spark 性能和调优
广播变量
蓄电池
内存管理和缓存
Spark 操作
在生产环境中部署 Spark
示例部署模板
配置
监测
故障 排除
要求
先决条件
熟悉 Java / Scala / Python 语言(我们的 Scala 和 Python 实验室) 对Linux开发环境有基本的了解(命令行导航/使用VI或nano编辑文件)
客户评论 (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
课程 - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
课程 - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
课程 - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
课程 - Spark for Developers
We know a lot more about the whole environment.
John Kidd
课程 - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.