Python, Spark, and Hadoop for Big Data 培训
Python 是一种可扩展、灵活且广泛使用的编程语言,用于数据科学和机器学习。Spark 是一个用于查询、分析和转换大数据的数据处理引擎,而 Hadoop 是一个用于大规模数据存储和处理的软件库框架。
这种以讲师为主导的现场培训(现场或远程)针对希望使用和集成Spark,Hadoop和Python以处理,分析和转换大型复杂数据集的开发人员。
在培训结束时,参与者将能够:
- 设置必要的环境以开始使用 Spark、Hadoop 和 Python 处理大数据。
- 了解 Spark 和 Hadoop 的功能、核心组件和架构。
- 了解如何集成 Spark、Hadoop 和 Python 进行大数据处理。
- 探索 Spark 生态系统中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 构建类似于 Netflix、YouTube、Amazon、Spotify 和 Google 的协作过滤推荐系统。
- 使用 Apache Mahout 扩展机器学习算法。
课程形式
- 互动讲座和讨论。
- 大量的练习和练习。
- 在现场实验室环境中实际实施。
课程定制选项
- 如需申请此课程的定制培训,请联系我们进行安排。
课程大纲
介绍
- Spark 和 Hadoop 功能和体系结构概述
- 了解大数据
- Python 编程基础
开始
- 设置 Python、Spark 和 Hadoop
- 了解 Python 中的数据结构
- 了解 PySpark API
- 了解 HDFS 和 MapReduce
将 Spark 和 Hadoop 与 Python 集成
- 在 Python 中实现 Spark RDD
- 使用MapReduce处理数据
- 在HDFS中创建分布式数据集
Machine Learning 使用 Spark MLlib
处理 Big Data 和 Spark Streaming
使用推荐系统
使用 Kafka、Sqoop、Kafka 和 Flume
使用 Spark 和 Hadoop 的 Apache Mahout
故障 排除
摘要和后续步骤
要求
- 具有 Spark 和 Hadoop 的经验
- Python 编程经验
观众
- 数据科学家
- 开发 人员
需要帮助选择合适的课程吗?
Python, Spark, and Hadoop for Big Data 培训 - Enquiry
Python, Spark, and Hadoop for Big Data - 问询
问询
客户评论 (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
课程 - Python, Spark, and Hadoop for Big Data
即将举行的公开课程
相关课程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 小时本课程面向希望在其应用程序中理解和实施人工智能的开发人员和数据科学家。 特别关注数据分析、分布式人工智能和自然语言处理。
Big Data Analytics with Google Colab and Apache Spark
14 小时这项由 讲师指导的现场培训中国(在线或现场)面向希望使用 Google Colab 和 Apache Spark 进行大数据处理和分析的中级数据科学家和工程师。
在本次培训结束时,参与者将能够:
- 使用 Google Colab 和 Spark 设置大数据环境。
- 使用 Apache Spark 高效处理和分析大型数据集。
- 在协作环境中可视化大数据。
- 将 Apache Spark 与基于云端的工具整合。
Big Data Analytics in Health
21 小时大数据分析涉及检查大量不同数据集的过程,以便发现相关性,隐藏模式和其他有用的见解。
健康产业拥有大量复杂的异构医学和临床数据。对健康数据应用大数据分析在获得改善医疗保健服务的见解方面具有巨大潜力。然而,这些数据集的巨大性给分析和临床环境的实际应用带来了巨大挑战。
在这个以讲师为主导的现场培训(远程)中,参与者将学习如何在健康状况下进行大数据分析,因为他们将逐步进行一系列动手实践练习。
在培训结束时,参与者将能够:
- 安装和配置大数据分析工具,如Hadoop MapReduce和Spark
- 了解医疗数据的特征
- 应用大数据技术处理医疗数据
- 在健康应用的背景下研究大数据系统和算法
听众
- 开发商
- 数据科学家
课程格式
- 部分讲座,部分讨论,练习和繁重的实践练习。
注意
- 要申请本课程的定制培训,请联系我们安排。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Hadoop and Spark for Administrators
35 小时这种由讲师指导的中国现场培训(现场或远程)针对的是希望学习如何在组织内设置,部署和管理Hadoop集群的系统管理员。
在培训结束时,参与者将能够:
- 安装和配置 Apache Hadoop。
- 了解 Hadoop 生态系统中的四个主要组件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分布式文件系统 (HDFS) 将集群扩展到数百或数千个节点。
- 将 HDFS 设置为本地 Spark 部署的存储引擎。
- 设置 Spark 以访问替代存储解决方案,例如 Amazon S3 和 NoSQL 数据库系统,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 执行管理任务,例如配置、管理、监控和保护 Apache Hadoop 集群。
Hortonworks Data Platform (HDP) for Administrators
21 小时这个由讲师指导的现场培训在 中国(在线或现场)介绍 Hortonworks Data Platform (HDP) 并引导参与者完成Spark + Hadoop 解决方案的部署。
在本次培训结束时,参与者将能够:
- 使用 Hortonworks 可靠地大规模运行 Hadoop。
- 将 Hadoop 的安全、治理和运营功能与Spark的敏捷分析工作流统一起来。
- 使用 Hortonworks 调查、验证、认证和支援 Spark 专案中的每个元件。
- 处理不同类型的数据,包括结构化、非结构化、动态和静态数据。
Data Analysis with Hive/HiveQL
7 小时本课程介绍如何从Hive提取数据的人员使用Hive SQL语言(AKA: Hive HQL, Hive SQL , Hive QL)
Impala for Business Intelligence
21 小时Cloudera Impala 是适用于 Apache Hadoop 集群的开源大规模并行处理 (MPP) SQL 查询引擎。
Impala 使用户能够 对存储在 Hadoop 分散式文件系统 和 Apache Hbase 中的数据发出低延迟 SQL 查询,而无需移动或转换数据。
观众
本课程面向 分析师和数据科学家,他们通过 Business Intelligence 或 SQL 工具对存储在 Hadoop 中的数据进行分析。
完成本课程后,学员将能够
- 使用 Impala 从 Hadoop 集群中提取有意义的资讯。
- 编写特定的程序以促进 Impala SQL 方言的 Business 智慧。
- 故障排除 Impala。
A Practical Introduction to Stream Processing
21 小时在这个以讲师为主导的中国现场培训(现场或远程)中,参与者将学习如何设置不同的Stream Processing框架并将其与现有的大数据存储系统以及相关的软件应用程序和微服务集成。
在培训结束时,参与者将能够:
- 安装和配置不同的 Stream Processing 框架,例如 Spark Streaming 和 Kafka Streaming。
- 了解并选择最适合工作的框架。
- 以逐条记录的方式连续、并发地处理数据。
- 将 Stream Processing 解决方案与现有数据库、数据仓库、数据湖等集成。
- 将最合适的流处理库与企业应用程序和微服务集成 。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Apache Spark MLlib
35 小时MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。它由常见的学习算法和实用程序组成,包括分类,回归,聚类,协同过滤,降维,以及低级优化原语和更高级别的管道API。
它分为两个包:
spark.mllib包含在RDD之上构建的原始API。
spark.ml提供了构建在DataFrame之上的更高级API,用于构建ML管道。
听众
本课程面向希望利用Apache Spark内置机器库的工程师和开发人员