感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍:
- Apache Spark 在 Hadoop 生态系统中
- python、scala 的简短介绍
基础知识(理论):
- 建筑
- RDD型
- 转型与行动
- 阶段、任务、依赖项
使用 Databricks 环境了解基础知识(动手研讨会):
- 使用 RDD API 的练习
- 基本操作和转换函数
- 货币对RDD
- 加入
- 缓存策略
- 使用 DataFrame API 的练习
- 火花SQL
- DataFrame:选择、筛选、分组、排序
- UDF(用户定义函数)
- 查看数据集 API
- 流
使用 AWS 环境了解部署(动手研讨会):
- AWS Glue 基础知识
- 了解 AWS EMR 和AWS Glue 之间的差异
- 两个环境中的示例作业
- 了解利弊
额外:
- Apache Airflow 编排简介
要求
编程技能(最好是 python,scala)
SQL 基础知识
21 小时
客户评论 (3)
进行实践环节/作业
Poornima Chenthamarakshan - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
机器翻译
1. 高层次概念与技术细节之间的恰当平衡。 2. Andras对他的教学内容非常了解。 3. 练习
Steven Wu - Intelligent Medical Objects
课程 - Apache Spark in the Cloud
机器翻译
学习Spark Streaming、Databricks和AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
课程 - Apache Spark in the Cloud
机器翻译