用Spark和Python通过PySpark处理大数据培训

课程编码

sparkpython

课程时长

21 小时 通常来说是3天,包括中间休息。

要求

  • 一般的编程技能

课程概览

Spark是一个用于查询、分析和转换大数据的数据处理引擎。Python是一种高级编程语言,因其清晰的语法和代码可读性而闻名。PySpark允许用户将Spark与Python连接。

在这一由讲师引导的现场培训中,学员将通过实践练习学习如何使用Python和Spark一起分析大数据。

在本次培训结束后,学员将能够:

  • 了解如何使用Spark和Python一起分析大数据
  • 开展模拟真实世界环境的练习
  • 用不同的工具和技术通过PySpark进行大数据分析

受众

  • 开发人员
  • IT专业人士
  • 数据科学家

课程形式

  • 部分讲座、部分讨论、练习和大量实操

课程大纲

介绍

了解大数据

Spark概述

Python概述

PySpark概述

  • 使用弹性分布式数据集框架分发数据
  • 使用Spark API运算符分布计算

设置Python和Spark

设置PySpark

针对Spark使用Amazon Web Services(AWS)EC2实例

设置数据块

设置AWS EMR集群

学习Python编程的基础知识

  • Python入门
  • 使用Jupyter Notebook
  • 使用变量和简单的数据类型
  • 使用列表
  • 使用 if 语句
  • 使用用户输入
  • 处理while循环
  • 实现函数
  • 使用类
  • 处理文件和异常
  • 处理项目、数据、API

学习Spark DataFrame的基础知识

  • Spark DataFrames入门
  • 用Spark实现基本操作
  • 使用Groupby和聚合操作
  • 使用时间戳和日期

进行Spark DataFrame项目练习

了解用MLlib进行机器学习

使用MLlib、Spark和Python进行机器学习

了解回归

  • 学习线性回归理论
  • 实现回归评估代码
  • 进行线性回归示例练习
  • 学习Logistic回归理论
  • 实现一个Logistic回归代码
  • 进行Logistic回归示例练习

了解随机森林(Random Forests)和决策树(Decision Trees)

  • 学习树方法论(Tree Methods Theory)
  • 实现决策树和随机森林代码
  • 进行随机森林分类示例练习

使用K均值聚类

  • 了解K均值聚类理论
  • 实现K均值聚类代码
  • 进行群集示例练习

使用推荐系统

实现自然语言处理

  • 理解自然语言处理(NLP)
  • NLP工具概述
  • 进行NLP示例练习

在Python中用Spark进行流式处理

  • 用Spark进行流式处理概述
  • Spark流数据处理(Spark Streaming)示例练习

结束语

客户评论

★★★★★
★★★★★

课程分类

相关课程

促销课程

订阅促销课程

为尊重您的隐私,我公司不会把您的邮箱地址提供给任何人。您可以享有优先权和随时取消订阅的权利。

我们的客户

is growing fast!

We are looking to expand our presence in China!

As a Business Development Manager you will:

  • expand business in China
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!