课程大纲

使用Spark进行高级分析

Big Data在云端

案例研究与最佳实践

使用Apache Spark进行数据处理

Google Colab与Apache Spark简介

优化Big Data工作流程

总结与下一步

在Google Colab中的可视化与Collaboration

  • 将Colab与流行的可视化库集成
  • 使用Colab笔记本进行协作工作流程
  • 分享与导出结果
  • 将Google Colab与基于云端的工具集成
  • 使用云存储处理大数据
  • 在分布式云环境中使用Spark
  • 使用Spark MLlib进行机器学习
  • 执行实时数据分析
  • 使用Spark进行分布式计算
  • Google Colab概述
  • Apache Spark简介
  • 在Google Colab中设置Spark
  • 回顾真实世界的大数据应用
  • 使用Apache Spark和Colab的案例研究
  • 大数据分析的最佳实践
  • 调优Spark以提升性能
  • 优化内存与存储使用
  • 为大数据集扩展工作流程
  • 使用RDDs和DataFrames
  • 加载与处理大数据集
  • 使用Spark SQL查询结构化数据

要求

受众

  • 具备数据科学概念的基础知识
  • 熟悉Apache Spark
  • Python编程技能
  • 数据科学家
  • 数据工程师
  • 从事大数据研究的研究人员
 14 小时

客户评论 (5)

即将举行的公开课程

课程分类