课程大纲

    Scala 入门 Scala 简介 实验室:了解 Scala Spark 基础知识 背景和历史 Spark 和 Hadoop Spark 概念和体系结构 Spark 生态系统(core、spark sql、mlib、streaming) 实验室:安装和运行 Spark 初探 Spark 在本地模式下运行 Spark Spark Web 用户界面 火花壳 分析数据集 – 第 1 部分 检查 RDD 实验室:Spark shell 探索 RDD的 RDD 概念 分区 RDD 操作/转换 RDD 类型 键值对 RDD RDD上的MapReduce 缓存和持久性 实验室:创建和检查RDD;  缓存 RDD Spark API 编程 Spark API / RDD API 简介 向 Spark 提交第一个程序 调试/日志记录 配置属性 实验室:在Spark API中编程,提交作业 火花 SQL SQL Spark 中的支持 数据帧 定义表和导入数据集 使用 SQL 查询数据框 存储格式 : JSON / Parquet 实验室:创建和查询数据框;评估数据格式 MLlib 中 MLlib 简介 MLlib 算法 实验室:编写 MLib 应用程序 图形X GraphX 库概述 GraphX 接口 实验室:使用Spark处理图形数据 Spark 流式处理 流式处理概述 评估流媒体平台 流式处理操作 滑动窗口操作 实验室:编写 spark 流式处理应用程序 Spark 和 Hadoop Hadoop 简介 (HDFS / YARN) Hadoop + Spark 架构 在 Hadoop YARN 上运行 Spark 使用 Spark 处理 HDFS 文件 Spark 性能和调优 广播变量 蓄电池 内存管理和缓存 Spark 操作 在生产环境中部署 Spark 示例部署模板 配置 监测 故障 排除

要求

先决条件

熟悉 Java / Scala / Python 语言(我们的 Scala 和 Python 实验室) 对Linux开发环境有基本的了解(命令行导航/使用VI或nano编辑文件)

  21 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

相关课程

课程分类