课程大纲
介绍
了解 Big Data
Spark概述
Python概述
PySpark概述
- 使用弹性分布式数据集框架分发数据
- 使用 Spark API Operators 分发计算
使用 Spark 设置 Python
设置 PySpark
将 Amazon Web Services (AWS) EC2 实例用于 Spark
设置 Databricks
设置 AWS EMR 集群
学习基础知识 Python Programming
- 开始使用 Python
- 使用 Jupyter Notebook
- 使用变量和简单数据类型
- 使用列表
- 使用 if 语句
- 使用用户输入
- 使用 while 循环
- 实现函数
- 使用类
- 处理文件和异常
- 使用项目、数据和 API
了解 Spark DataFrame 的基础知识
- Spark DataFrames 入门
- 使用 Spark 实现基本操作
- 使用 Groupby 和 Aggregate 操作
- 使用时间戳和日期
处理 Spark DataFrame 项目练习
使用 MLlib 了解 Machine Learning
使用 MLlib、Spark 和 Python 获取 Machine Learning
了解回归
- 学习线性回归理论
- 实现回归评估代码
- 处理样本线性回归练习
- 学习逻辑回归理论
- 实现逻辑回归代码
- 进行示例逻辑回归练习
了解 Random Forest 和决策树
- 学习树方法理论
- 实现决策树和 Random Forest 代码
- 处理样本 Random Forest 分类练习
使用 K-means 聚类
- 理解 K 均值聚类理论
- 实现 K-means 聚类代码
- 处理样本聚类分析练习
使用推荐系统
实现自然语言处理
- 理解 Natural Language Processing (NLP)
- NLP工具概述
- 处理示例 NLP 练习
在 Python 上使用 Spark 进行流式处理
- 概述:使用 Spark 进行流式处理
- 样本 Spark Streaming 运动
结束语
要求
- 一般编程技能
观众
- 开发 人员
- IT 专业人员
- 数据科学家
客户评论 (6)
我喜欢它的实用性。非常喜欢将理论知识应用到实际例子中。
Aurelia-Adriana - Allianz Services Romania
课程 - Python and Spark for Big Data (PySpark)
机器翻译
课程涉及一系列非常复杂的相关主题,Pablo对每个主题都有深入的专长。有时由于沟通或时间压力,一些细微之处未能完全传达,可能因此未能完全达到预期。此外,遇到了一些UHG/Azure Databricks的设置问题,但Pablo/UHG在问题显现后迅速解决了这些问题——这让我看到了UHG与Pablo之间的高度理解与专业素养。
Michael Monks - Tech NorthWest Skillnet
课程 - Python and Spark for Big Data (PySpark)
机器翻译
个性化关注。
ARCHANA ANILKUMAR - PPL
课程 - Python and Spark for Big Data (PySpark)
机器翻译
实践培训。
Abraham Thomas - PPL
课程 - Python and Spark for Big Data (PySpark)
机器翻译
课程在Jupyter notebook中进行。主题按照逻辑顺序编排,自然地帮助课程从较简单的部分过渡到更复杂的内容。我已是Python的高级用户,并有机器学习背景,因此发现这门课程比可能参加培训的一些同学更容易跟上。我很欣赏跳过了一些最基本的概念,而专注于最重要的内容。
Angela DeLaMora - ADT, LLC
课程 - Python and Spark for Big Data (PySpark)
机器翻译
实践任务
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
课程 - Python and Spark for Big Data (PySpark)
机器翻译