感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
PySpark与机器学习
模块1:大数据与Spark基础
- 大数据生态系统概述及Spark在现代数据平台中的作用
- 理解Spark架构:驱动、执行器、集群管理器、惰性求值、DAG和执行计划
- RDD与DataFrame API的区别及各自的使用场景
- 创建和配置SparkSession,了解应用程序配置基础
模块2:PySpark DataFrames
- 从企业数据源和格式(CSV、JSON、Parquet、Delta)中读取和写入数据
- 使用PySpark DataFrames:转换、操作、列表达式、过滤、连接和聚合
- 实现高级操作,如窗口函数、处理时间戳和嵌套数据
- 应用数据质量检查,编写可重用、可维护的PySpark代码
模块3:高效处理大规模数据集
- 理解性能基础:分区策略、Shuffle行为、缓存和持久化
- 使用优化技术,包括广播连接和执行计划分析
- 高效处理大规模数据集及可扩展数据工作流的最佳实践
- 理解企业环境中的模式演化和现代存储格式
模块4:大规模特征工程
- 使用Spark MLlib进行特征工程:处理缺失值、编码分类变量和特征缩放
- 设计可重用的预处理步骤,为机器学习管道准备数据集
- 特征选择简介及处理不平衡数据集
模块5:使用Spark MLlib进行机器学习
- 理解MLlib架构及Estimator/Transformer模式
- 大规模训练回归和分类模型(线性回归、逻辑回归、决策树、随机森林)
- 在分布式机器学习工作流中比较模型并解释结果
模块6:端到端机器学习管道
- 构建端到端机器学习管道,结合预处理、特征工程和建模
- 应用训练/验证/测试集划分策略
- 使用网格搜索和随机搜索进行交叉验证和超参数调优
- 构建可重复的机器学习实验
模块7:模型评估与实用机器学习决策
- 为回归和分类问题应用适当的评估指标
- 识别过拟合和欠拟合,做出实用的模型选择决策
- 解释特征重要性,理解模型行为
模块8:生产与企业实践
- 在Spark中持久化和加载模型
- 在大规模数据集上实现批量推理工作流
- 理解企业环境中的机器学习生命周期
- 版本控制、实验跟踪概念和基本测试策略简介
实践成果
- 能够独立使用PySpark
- 能够高效处理大规模数据集
- 能够进行大规模特征工程
- 能够构建可扩展的机器学习管道
要求
参与者应具备以下背景:
基本的Python编程知识,包括函数、数据结构和库的使用
对数据分析概念(如数据集、转换和聚合)的基本理解
SQL和关系数据概念的基础知识
对机器学习概念(如训练数据集、特征和评估指标)的初步了解
熟悉命令行环境和基本软件开发实践者优先
有Pandas、NumPy或类似数据处理库的经验会有所帮助,但不是必需的。
21 小时
客户评论 (1)
我喜欢它的实用性。非常喜欢将理论知识应用到实际例子中。
Aurelia-Adriana - Allianz Services Romania
课程 - Python and Spark for Big Data (PySpark)
机器翻译