课程大纲

Google Colab 和 Apache Spark 简介

  • Google Colab 概述
  • Apache Spark 简介
  • 在 Google Colab 中设置 Spark

使用 Apache Spark 进行数据处理

  • 使用 RDD 和 DataFrame
  • 载入和处理大型数据集
  • 使用 Spark SQL 查询结构化数据

使用Spark进行高级分析

  • 使用Spark MLlib进行机器学习
  • 执行实时数据分析
  • 使用Spark进行分散式计算

可视化和 Google Colab 中的 Collaboration

  • 将 Colab 与流行的视觉化库整合
  • 使用 Colab 笔记本的协作工作流
  • 共用和汇出结果

优化 Big Data 工作流程

  • 优化Spark的性能
  • 优化记忆体和存储使用方式
  • 扩展大型数据集的工作流

Big Data 在云中

  • 将 Google Colab 与基于云端的工具整合
  • 将云存储用于大数据
  • 在分散式云环境中使用Spark

案例研究和最佳实践

  • 实际大数据应用回顾
  • 使用 Apache Spark 和 Colab 的案例研究
  • 大数据分析的最佳实践

总结和后续步骤

要求

  • 数据科学概念的基础知识
  • 熟悉 Apache Spark
  • Python 程式设计技能

观众

  • 数据科学家
  • 数据工程师
  • 使用大数据的研究人员
 14 小时

客户评论 (5)

即将举行的公开课程

课程分类