课程大纲

介绍

了解 Big Data

Spark概述

Python概述

PySpark概述

  • 使用弹性分布式数据集框架分发数据
  • 使用 Spark API 运算符分发计算

使用 Spark 设置 Python

设置 PySpark

使用适用于 Spark 的 Amazon Web Services (AWS) EC2 实例

设置 Databricks

设置 AWS EMR 集群

学习 Python 编程的基础知识

  • 开始使用 Python
  • 使用 Jupyter Notebook
  • 使用变量和简单数据类型
  • 使用列表
  • 使用 if 语句
  • 使用用户输入
  • 使用 while 循环
  • 实现函数
  • 使用类
  • 使用文件和异常
  • 使用项目、数据和 API

了解 Spark DataFrame 的基础知识

  • Spark DataFrames 入门
  • 使用 Spark 实现基本操作
  • 使用 Groupby 和聚合操作
  • 使用时间戳和日期

处理 Spark DataFrame 项目练习

使用 MLlib 了解 Machine Learning

使用 MLlib、Spark 和 Python 进行机器学习

了解回归

  • 学习线性回归理论
  • 实现回归评估代码
  • 进行示例线性回归练习
  • 学习逻辑回归理论
  • 实现逻辑回归代码
  • 进行示例逻辑回归练习

了解 Random Forest 和决策树

  • 学习树方法理论
  • 实现决策树和 Random Forest 代码
  • 处理样本 Random Forest 分类练习

使用 K-means 聚类分析

  • 了解 K 均值聚类理论
  • 实现 K-means 聚类代码
  • 处理示例聚类分析练习

使用推荐系统

实现自然语言处理

  • 了解 Natural Language Processing (NLP)
  • NLP工具概述
  • 进行示例 NLP 练习

在 Python 上使用 Spark 进行流式处理

  • 概述:使用 Spark 进行流式处理
  • 示例 Spark Streaming 练习

闭幕致辞

要求

  • 一般编程技能

观众

  • 开发 人员
  • IT 专业人员
  • 数据科学家
  21 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (5)

相关课程

课程分类