课程大纲
介绍
Scala 编程深度回顾
- 语法和结构
- 流量控制和功能
Spark 内部结构
- 弹性分布式数据集 (RDD)
- Spark 脚本到图形到群集
Spark Streaming概述
- 流式处理体系结构
- 流式处理中的间隔
- 容错
准备开发环境
- 安装和配置 Apache Spark
- 安装和配置 Scala IDE
- 安装和配置 JDK
Spark Streaming 初级到高级
- 使用键/值 RDD
- 过滤 RDD
- 使用正则表达式改进 Spark 脚本
- 在集群上共享数据
- 使用网络数据集
- 实现BFS算法
- 创建 Spark 驱动程序脚本
- 使用脚本进行实时跟踪
- 编写连续应用程序
- 流式线性回归
- 使用 Spark Machine Learning 库
Spark 和群集
- 使用 SBT 工具捆绑依赖项和 Spark 脚本
- 使用 EMR 说明集群
- 通过对 RDD 进行分区进行优化
- 使用 Spark 日志
集成在 Spark Streaming 中
- 集成 Apache Kafka 并使用 Kafka 主题
- 集成 Apache Fume 并使用基于拉取/基于推送的 Flume 配置
- 编写自定义接收器类
- 集成 Cassandra 并将数据公开为实时服务
生产中
- 打包应用程序并使用 Spark-Submit 运行它
- 故障排除、优化和调试 Spark 作业和群集
总结和结论
要求
- Programming 和脚本编写经验
观众
- 软件工程师
客户评论 (5)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
课程 - Python and Spark for Big Data (PySpark)
很多实际的例子,处理同一问题的不同方法,有时还不那么明显的技巧如何改进当前的解决方案
Rafał - Nordea
课程 - Apache Spark MLlib
机器翻译
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
课程 - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
Sufficient hands on, trainer is knowledgable
Chris Tan
课程 - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.