课程大纲

 

介绍:

  • Apache Spark 在 Hadoop 生态系统中
  • python、scala 的简短介绍

基础知识(理论):

  • 建筑
  • RDD型
  • 转型与行动
  • 阶段、任务、依赖项

使用 Databricks 环境了解基础知识(动手研讨会):

  • 使用 RDD API 的练习
  • 基本操作和转换函数
  • 货币对RDD
  • 加入
  • 缓存策略
  • 使用 DataFrame API 的练习
  • 火花SQL
  • DataFrame:选择、筛选、分组、排序
  • UDF(用户定义函数)
  • 查看数据集 API

使用 AWS 环境了解部署(动手研讨会):

  • AWS Glue 基础知识
  • 了解 AWS EMR 和AWS Glue 之间的差异
  • 两个环境中的示例作业
  • 了解利弊

额外:

  • Apache Airflow 编排简介

要求

编程技能(最好是 python,scala)

SQL 基础知识

  21 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (3)

相关课程

课程分类