课程大纲

介绍

了解大数据

Spark概述

Python概述

PySpark概述

  • 使用弹性分布式数据集框架分发数据
  • 使用Spark API运算符分布计算

设置Python和Spark

设置PySpark

针对Spark使用Amazon Web Services(AWS)EC2实例

设置数据块

设置AWS EMR集群

学习Python编程的基础知识

  • Python入门
  • 使用Jupyter Notebook
  • 使用变量和简单的数据类型
  • 使用列表
  • 使用 if 语句
  • 使用用户输入
  • 处理while循环
  • 实现函数
  • 使用类
  • 处理文件和异常
  • 处理项目、数据、API

学习Spark DataFrame的基础知识

  • Spark DataFrames入门
  • 用Spark实现基本操作
  • 使用Groupby和聚合操作
  • 使用时间戳和日期

进行Spark DataFrame项目练习

了解用MLlib进行机器学习

使用MLlib、Spark和Python进行机器学习

了解回归

  • 学习线性回归理论
  • 实现回归评估代码
  • 进行线性回归示例练习
  • 学习Logistic回归理论
  • 实现一个Logistic回归代码
  • 进行Logistic回归示例练习

了解随机森林(Random Forests)和决策树(Decision Trees)

  • 学习树方法论(Tree Methods Theory)
  • 实现决策树和随机森林代码
  • 进行随机森林分类示例练习

使用K均值聚类

  • 了解K均值聚类理论
  • 实现K均值聚类代码
  • 进行群集示例练习

使用推荐系统

实现自然语言处理

  • 理解自然语言处理(NLP)
  • NLP工具概述
  • 进行NLP示例练习

在Python中用Spark进行流式处理

  • 用Spark进行流式处理概述
  • Spark流数据处理(Spark Streaming)示例练习

结束语

要求

  • 一般的编程技能
 21 小时

人数


每位参与者的报价

客户评论 (6)

课程分类