感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍:
- Apache Spark 在 Hadoop 生态系统中
- python、scala 的简短介绍
基础知识(理论):
- 建筑
- RDD型
- 转型与行动
- 阶段、任务、依赖项
使用 Databricks 环境了解基础知识(动手研讨会):
- 使用 RDD API 的练习
- 基本操作和转换函数
- 货币对RDD
- 加入
- 缓存策略
- 使用 DataFrame API 的练习
- 火花SQL
- DataFrame:选择、筛选、分组、排序
- UDF(用户定义函数)
- 查看数据集 API
- 流
使用 AWS 环境了解部署(动手研讨会):
- AWS Glue 基础知识
- 了解 AWS EMR 和AWS Glue 之间的差异
- 两个环境中的示例作业
- 了解利弊
额外:
- Apache Airflow 编排简介
要求
编程技能(最好是 python,scala)
SQL 基础知识
21 小时
客户评论 (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift