Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
-
Scala 入门
Scala 简介
实验室:了解 Scala
Spark 基础知识
背景和历史
Spark 和 Hadoop
Spark 概念和体系结构
Spark 生态系统(core、spark sql、mlib、streaming)
实验室:安装和运行 Spark
初探 Spark
在本地模式下运行 Spark
Spark Web 用户界面
火花壳
分析数据集 – 第 1 部分
检查 RDD
实验室:Spark shell 探索
RDD的
RDD 概念
分区
RDD 操作/转换
RDD 类型
键值对 RDD
RDD上的MapReduce
缓存和持久性
实验室:创建和检查RDD; 缓存 RDD
Spark API 编程
Spark API / RDD API 简介
向 Spark 提交第一个程序
调试/日志记录
配置属性
实验室:在Spark API中编程,提交作业
火花 SQL
SQL Spark 中的支持
数据帧
定义表和导入数据集
使用 SQL 查询数据框
存储格式 : JSON / Parquet
实验室:创建和查询数据框;评估数据格式
MLlib 中
MLlib 简介
MLlib 算法
实验室:编写 MLib 应用程序
图形X
GraphX 库概述
GraphX 接口
实验室:使用Spark处理图形数据
Spark 流式处理
流式处理概述
评估流媒体平台
流式处理操作
滑动窗口操作
实验室:编写 spark 流式处理应用程序
Spark 和 Hadoop
Hadoop 简介 (HDFS / YARN)
Hadoop + Spark 架构
在 Hadoop YARN 上运行 Spark
使用 Spark 处理 HDFS 文件
Spark 性能和调优
广播变量
蓄电池
内存管理和缓存
Spark 操作
在生产环境中部署 Spark
示例部署模板
配置
监测
故障 排除
要求
先决条件
熟悉 Java / Scala / Python 语言(我们的 Scala 和 Python 实验室) 对Linux开发环境有基本的了解(命令行导航/使用VI或nano编辑文件)
21 小时