课程大纲
Google Colab 和 Apache Spark 简介
- Google Colab 概述
- Apache Spark 简介
- 在 Google Colab 中设置 Spark
使用 Apache Spark 进行数据处理
- 使用 RDDs 和 DataFrames
- 加载和处理大型数据集
- 使用 Spark SQL 查询结构化数据
使用 Spark 进行高级分析
- 使用 Spark MLlib 进行机器学习
- 执行实时数据分析
- 使用 Spark 进行分布式计算
Google Colab 中的可视化和 Collaboration
- 将 Colab 与流行的可视化库集成
- 使用 Colab 笔记本进行协作工作流程
- 分享和导出结果
优化 Big Data 工作流程
- 调优 Spark 以提高性能
- 优化内存和存储使用
- 为大型数据集扩展工作流程
云中的 Big Data
- 将 Google Colab 与云工具集成
- 使用云存储处理大数据
- 在分布式云环境中使用 Spark
案例研究与最佳实践
- 回顾现实世界的大数据应用
- 使用 Apache Spark 和 Colab 的案例研究
- 大数据分析的最佳实践
总结与下一步
要求
- 数据科学概念的基础知识
- 熟悉Apache Spark
- Python编程技能
受众
- 数据科学家
- 数据工程师
- 从事大数据研究的研究人员
客户评论 (5)
Hands-on examples allowed us to get an actual feel for how the program works. Good explanations and integration of theoretical concepts and how they relate to practical applications.
Ian - Archeoworks Inc.
课程 - ArcGIS Fundamentals
All the topics which he covered including examples. And also explained how they are helpful in our daily job.
madduri madduri - Boskalis Singapore Pte Ltd
课程 - QGIS for Geographic Information System
我喜欢 Pablo 的风格,他涵盖了很多主题,从报告设计、html 定制到实现简单的 ML 算法。Good 平衡理论信息/练习。Pablo 真的涵盖了我感兴趣的所有主题,并全面回答了我的问题。
Cristian Tudose - SC Automobile Dacia SA
课程 - Advanced Data Analysis with TIBCO Spotfire
机器翻译
Actual application of spotfire and all basic functions.
Michael Capili - STMicroelectronics, Inc.
课程 - Introduction to Spotfire
The thing I liked the most about the training was the organization and the location