PySpark与机器学习培训

(1 客户评论)

本培训提供了一个实用的入门指南，介绍如何使用PySpark构建可扩展的数据处理和机器学习工作流。参与者将学习Apache Spark在现代大数据生态系统中的运作方式，以及如何利用分布式计算原理高效处理大规模数据集。

课程从Spark架构和DataFrame操作逐步过渡到高级主题，如特征工程、机器学习模型训练以及使用Spark MLlib构建端到端机器学习管道。参与者还将探索性能优化技术、模型评估策略以及在企业环境中大规模部署机器学习工作流的最佳实践。

通过实践练习和现实场景的启发，参与者将学习如何设计高效的数据管道，为机器学习准备数据集，并构建能够处理企业环境中常见大规模数据的分布式机器学习模型。

培训结束时，参与者将了解如何将PySpark集成到现代数据平台中，并在生产环境中应用可扩展的机器学习技术。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

PySpark与机器学习

模块1：大数据与Spark基础

大数据生态系统概述及Spark在现代数据平台中的作用
理解Spark架构：驱动、执行器、集群管理器、惰性求值、DAG和执行计划
RDD与DataFrame API的区别及各自的使用场景
创建和配置SparkSession，了解应用程序配置基础

模块2：PySpark DataFrames

从企业数据源和格式（CSV、JSON、Parquet、Delta）中读取和写入数据
使用PySpark DataFrames：转换、操作、列表达式、过滤、连接和聚合
实现高级操作，如窗口函数、处理时间戳和嵌套数据
应用数据质量检查，编写可重用、可维护的PySpark代码

模块3：高效处理大规模数据集

理解性能基础：分区策略、Shuffle行为、缓存和持久化
使用优化技术，包括广播连接和执行计划分析
高效处理大规模数据集及可扩展数据工作流的最佳实践
理解企业环境中的模式演化和现代存储格式

模块4：大规模特征工程

使用Spark MLlib进行特征工程：处理缺失值、编码分类变量和特征缩放
设计可重用的预处理步骤，为机器学习管道准备数据集
特征选择简介及处理不平衡数据集

模块5：使用Spark MLlib进行机器学习

理解MLlib架构及Estimator/Transformer模式
大规模训练回归和分类模型（线性回归、逻辑回归、决策树、随机森林）
在分布式机器学习工作流中比较模型并解释结果

模块6：端到端机器学习管道

构建端到端机器学习管道，结合预处理、特征工程和建模
应用训练/验证/测试集划分策略
使用网格搜索和随机搜索进行交叉验证和超参数调优
构建可重复的机器学习实验

模块7：模型评估与实用机器学习决策

为回归和分类问题应用适当的评估指标
识别过拟合和欠拟合，做出实用的模型选择决策
解释特征重要性，理解模型行为

模块8：生产与企业实践

在Spark中持久化和加载模型
在大规模数据集上实现批量推理工作流
理解企业环境中的机器学习生命周期
版本控制、实验跟踪概念和基本测试策略简介

实践成果

能够独立使用PySpark
能够高效处理大规模数据集
能够进行大规模特征工程
能够构建可扩展的机器学习管道

要求

参与者应具备以下背景：

基本的Python编程知识，包括函数、数据结构和库的使用
对数据分析概念（如数据集、转换和聚合）的基本理解
SQL和关系数据概念的基础知识
对机器学习概念（如训练数据集、特征和评估指标）的初步了解
熟悉命令行环境和基本软件开发实践者优先

有Pandas、NumPy或类似数据处理库的经验会有所帮助，但不是必需的。

21 小时

需要帮助选择合适的课程吗？

客户评论 (1)

我喜欢它的实用性。非常喜欢将理论知识应用到实际例子中。

PySpark与机器学习培训

课程大纲

要求

客户评论 (1)

Aurelia-Adriana - Allianz Services Romania

课程 - Python and Spark for Big Data (PySpark)

即将举行的公开课程

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

课程分类

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

PySpark与机器学习 培训

课程大纲

要求

客户评论 (1)

Aurelia-Adriana - Allianz Services Romania

课程 - Python and Spark for Big Data (PySpark)

即将举行的公开课程

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

PySpark与机器学习

相关课程

用Spark和Python通过PySpark处理大数据

Stratio: 使用PySpark的Rocket与Intelligence模块

课程分类

PySpark

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

PySpark与机器学习培训