Apache Spark Fundamentals 培训
Apache Spark 是一款分析引擎,旨在将数据分布在一个集群中,以便同时处理。 它包含流媒体, SQL,机器学习和图形处理的模块。
由教练领导的现场培训(在线或在线)是针对那些希望部署系统处理大量数据的工程师。
在本研讨会结束后,参与者将能够:
- 安置和配置(二)
- 要明白,在《古兰经》和《古兰经》之间有什么区别?
- 快速阅读并分析非常大的数据集。
- 与其他机械学习工具相结合。
课程格式
- 互动讲座和讨论。
- 很多练习和练习。
- 在现场实验室环境中进行手动实施。
课程定制选项
- 要申请此课程的定制培训,请联系我们安排。
课程大纲
介绍
- Apache Spark 与 Hadoop MapReduce
Apache Spark 功能和体系结构概述
选择 Programming 语言
设置 Apache Spark
创建示例应用程序
选择数据集
在数据上运行 Data Analysis
使用 Spark 处理结构化数据 SQL
使用 Spark Streaming 处理流数据
将 Apache Spark 与第 3 部分集成 Machine Learning 工具
使用 Apache Spark 进行图形处理
优化 Apache Spark
故障 排除
总结和结论
要求
- 具有 Linux 命令行的经验
- 对数据处理的一般了解
- 具有 Java、Scala、Python 或 R 编程经验
观众
- 开发 人员
需要帮助选择合适的课程吗?
Apache Spark Fundamentals 培训 - Enquiry
Apache Spark Fundamentals - 问询
问询
客户评论 (5)
很多实际的例子,处理同一问题的不同方法,有时还不那么明显的技巧如何改进当前的解决方案
Rafal - Nordea
课程 - Apache Spark MLlib
机器翻译
very interactive...
Richard Langford
课程 - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
课程 - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
课程 - Apache Spark in the Cloud
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
课程 - Python and Spark for Big Data (PySpark)
即将举行的公开课程
相关课程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 小时本课程面向希望在其应用程序中理解和实施人工智能的开发人员和数据科学家。 特别关注数据分析、分布式人工智能和自然语言处理。
Big Data Analytics with Google Colab and Apache Spark
14 小时这项由 讲师指导的现场培训中国(在线或现场)面向希望使用 Google Colab 和 Apache Spark 进行大数据处理和分析的中级数据科学家和工程师。
在本次培训结束时,参与者将能够:
- 使用 Google Colab 和 Spark 设置大数据环境。
- 使用 Apache Spark 高效处理和分析大型数据集。
- 在协作环境中可视化大数据。
- 将 Apache Spark 与基于云端的工具整合。
Big Data Analytics in Health
21 小时大数据分析涉及检查大量不同数据集的过程,以便发现相关性,隐藏模式和其他有用的见解。
健康产业拥有大量复杂的异构医学和临床数据。对健康数据应用大数据分析在获得改善医疗保健服务的见解方面具有巨大潜力。然而,这些数据集的巨大性给分析和临床环境的实际应用带来了巨大挑战。
在这个以讲师为主导的现场培训(远程)中,参与者将学习如何在健康状况下进行大数据分析,因为他们将逐步进行一系列动手实践练习。
在培训结束时,参与者将能够:
- 安装和配置大数据分析工具,如Hadoop MapReduce和Spark
- 了解医疗数据的特征
- 应用大数据技术处理医疗数据
- 在健康应用的背景下研究大数据系统和算法
听众
- 开发商
- 数据科学家
课程格式
- 部分讲座,部分讨论,练习和繁重的实践练习。
注意
- 要申请本课程的定制培训,请联系我们安排。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Hadoop and Spark for Administrators
35 小时这种由讲师指导的中国现场培训(现场或远程)针对的是希望学习如何在组织内设置,部署和管理Hadoop集群的系统管理员。
在培训结束时,参与者将能够:
- 安装和配置 Apache Hadoop。
- 了解 Hadoop 生态系统中的四个主要组件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分布式文件系统 (HDFS) 将集群扩展到数百或数千个节点。
- 将 HDFS 设置为本地 Spark 部署的存储引擎。
- 设置 Spark 以访问替代存储解决方案,例如 Amazon S3 和 NoSQL 数据库系统,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 执行管理任务,例如配置、管理、监控和保护 Apache Hadoop 集群。
Hortonworks Data Platform (HDP) for Administrators
21 小时这个由讲师指导的现场培训在 中国(在线或现场)介绍 Hortonworks Data Platform (HDP) 并引导参与者完成Spark + Hadoop 解决方案的部署。
在本次培训结束时,参与者将能够:
- 使用 Hortonworks 可靠地大规模运行 Hadoop。
- 将 Hadoop 的安全、治理和运营功能与Spark的敏捷分析工作流统一起来。
- 使用 Hortonworks 调查、验证、认证和支援 Spark 专案中的每个元件。
- 处理不同类型的数据,包括结构化、非结构化、动态和静态数据。
A Practical Introduction to Stream Processing
21 小时在这个以讲师为主导的中国现场培训(现场或远程)中,参与者将学习如何设置不同的Stream Processing框架并将其与现有的大数据存储系统以及相关的软件应用程序和微服务集成。
在培训结束时,参与者将能够:
- 安装和配置不同的 Stream Processing 框架,例如 Spark Streaming 和 Kafka Streaming。
- 了解并选择最适合工作的框架。
- 以逐条记录的方式连续、并发地处理数据。
- 将 Stream Processing 解决方案与现有数据库、数据仓库、数据湖等集成。
- 将最合适的流处理库与企业应用程序和微服务集成 。
SMACK Stack for Data Science
14 小时这种以讲师为主导的中国现场现场培训针对的是希望使用SMACK堆栈为大数据解决方案构建数据处理平台的数据科学家。
在培训结束时,参与者将能够:
- 实施用于处理大数据的数据管道体系结构。
- 使用 Apache Mesos 和 Docker 开发集群基础架构。
- 使用 Spark 和 Scala 分析数据。
- 使用 Apache Cassandra 管理非结构化数据。
Administration of Apache Spark
35 小时这种由讲师指导的现场培训中国(远程或远程)面向希望部署、维护和优化 Spark 集群的初级到中级系统管理员。
在培训结束时,参与者将能够:
- 在各种环境中安装和配置 Apache Spark。
- 管理群集资源并监视 Spark 应用程序。
- 优化Spark集群性能。
- 实施安全措施并确保高可用性。
- 调试和排查常见的 Spark 问题。
Apache Spark in the Cloud
21 小时Apache Spark的学习曲线在开始时逐渐增加,需要付出很多努力来获得第一次回归。本课程旨在突破第一个艰难的部分。参加本课程后,参与者将了解Apache Spark的基础知识,他们将明确区分RDD和DataFrame,他们将学习Python和Scala API,他们将理解执行者和任务等。同样遵循最佳实践,本课程重点关注云部署,Databricks和AWS。学生还将了解AWS EMR与AWS最新Spark服务之一AWS Glue之间的差异。
听众:
数据工程师, DevOps ,数据科学家
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Apache Spark MLlib
35 小时MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。它由常见的学习算法和实用程序组成,包括分类,回归,聚类,协同过滤,降维,以及低级优化原语和更高级别的管道API。
它分为两个包:
spark.mllib包含在RDD之上构建的原始API。
spark.ml提供了构建在DataFrame之上的更高级API,用于构建ML管道。
听众
本课程面向希望利用Apache Spark内置机器库的工程师和开发人员