联系我们

课程大纲

PySpark与机器学习 

模块1:大数据与Spark基础

  • 大数据生态系统概述及Spark在现代数据平台中的作用
  • 理解Spark架构:驱动、执行器、集群管理器、惰性求值、DAG和执行计划
  • RDD与DataFrame API的区别及各自的使用场景
  • 创建和配置SparkSession,了解应用程序配置基础

模块2:PySpark DataFrames

  • 从企业数据源和格式(CSV、JSON、Parquet、Delta)中读取和写入数据
  • 使用PySpark DataFrames:转换、操作、列表达式、过滤、连接和聚合
  • 实现高级操作,如窗口函数、处理时间戳和嵌套数据
  • 应用数据质量检查,编写可重用、可维护的PySpark代码

模块3:高效处理大规模数据集

  • 理解性能基础:分区策略、Shuffle行为、缓存和持久化
  • 使用优化技术,包括广播连接和执行计划分析
  • 高效处理大规模数据集及可扩展数据工作流的最佳实践
  • 理解企业环境中的模式演化和现代存储格式

模块4:大规模特征工程

  • 使用Spark MLlib进行特征工程:处理缺失值、编码分类变量和特征缩放
  • 设计可重用的预处理步骤,为机器学习管道准备数据集
  • 特征选择简介及处理不平衡数据集

模块5:使用Spark MLlib进行机器学习

  • 理解MLlib架构及Estimator/Transformer模式
  • 大规模训练回归和分类模型(线性回归、逻辑回归、决策树、随机森林)
  • 在分布式机器学习工作流中比较模型并解释结果

模块6:端到端机器学习管道

  • 构建端到端机器学习管道,结合预处理、特征工程和建模
  • 应用训练/验证/测试集划分策略
  • 使用网格搜索和随机搜索进行交叉验证和超参数调优
  • 构建可重复的机器学习实验

模块7:模型评估与实用机器学习决策

  • 为回归和分类问题应用适当的评估指标
  • 识别过拟合和欠拟合,做出实用的模型选择决策
  • 解释特征重要性,理解模型行为

模块8:生产与企业实践

  • 在Spark中持久化和加载模型
  • 在大规模数据集上实现批量推理工作流
  • 理解企业环境中的机器学习生命周期
  • 版本控制、实验跟踪概念和基本测试策略简介

 

实践成果

  • 能够独立使用PySpark
  • 能够高效处理大规模数据集
  • 能够进行大规模特征工程
  • 能够构建可扩展的机器学习管道

要求

参与者应具备以下背景:

基本的Python编程知识,包括函数、数据结构和库的使用
对数据分析概念(如数据集、转换和聚合)的基本理解
SQL和关系数据概念的基础知识
对机器学习概念(如训练数据集、特征和评估指标)的初步了解
熟悉命令行环境和基本软件开发实践者优先

有Pandas、NumPy或类似数据处理库的经验会有所帮助,但不是必需的。

 21 小时

客户评论 (1)

即将举行的公开课程

课程分类