Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
介绍:
- Apache Spark 在 Hadoop 生态系统中
- python、scala 的简短介绍
基础知识(理论):
- 建筑
- RDD型
- 转型与行动
- 阶段、任务、依赖项
使用 Databricks 环境了解基础知识(动手研讨会):
- 使用 RDD API 的练习
- 基本操作和转换函数
- 货币对RDD
- 加入
- 缓存策略
- 使用 DataFrame API 的练习
- 火花SQL
- DataFrame:选择、筛选、分组、排序
- UDF(用户定义函数)
- 查看数据集 API
- 流
使用 AWS 环境了解部署(动手研讨会):
- AWS Glue 基础知识
- 了解 AWS EMR 和AWS Glue 之间的差异
- 两个环境中的示例作业
- 了解利弊
额外:
- Apache Airflow 编排简介
要求
编程技能(最好是 python,scala)
SQL 基础知识
21 小时
客户评论 (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift