Apache Spark SQL 培训
Spark SQL是Apache Spark用于处理结构化和非结构化数据的模块。 Spark SQL提供有关数据结构以及正在执行的计算的信息。此信息可用于执行优化。 Spark SQL两个常见用途是:
- 执行SQL查询。
- 从现有Hive安装中读取数据。
在这个由讲师指导的实时培训(现场或远程)中,参与者将学习如何使用Spark SQL分析各种类型的数据集。
在培训结束时,参与者将能够:
- 安装和配置Spark SQL 。
- 使用Spark SQL执行数据分析。
- 以不同格式查询数据集。
- 可视化数据和查询结果。
课程格式
- 互动讲座和讨论。
- 大量的练习和练习。
- 在实时实验室环境中亲自实施。
课程自定义选项
- 要申请本课程的定制培训,请联系我们安排。
课程大纲
介绍
数据访问方法概述(Hive、数据库等)
Spark 功能和体系结构概述
安装和配置 Spark
了解 Spark 中的数据帧
定义表和导入数据集
使用 SQL 查询数据框
执行聚合、JOIN 和嵌套查询
上传和 Accessing 数据
查询不同类型的数据
- JSON、Parquet 等
使用 SQL 查询数据湖
故障 排除
总结和结论
要求
- 具有 SQL 查询的经验
- 任何语言的编程经验
观众
- 数据分析师
- 数据科学家
- 数据工程师
需要帮助选择合适的课程吗?
china@nobleprog.com 或拨打 400 6116 540
Apache Spark SQL 培训 - Enquiry
Apache Spark SQL - 问询
问询
客户评论 (5)
很多实际的例子,处理同一问题的不同方法,有时还不那么明显的技巧如何改进当前的解决方案
Rafal - Nordea
课程 - Apache Spark MLlib
机器翻译
very interactive...
Richard Langford
课程 - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
课程 - A Practical Introduction to Stream Processing
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
课程 - Python and Spark for Big Data (PySpark)
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
课程 - Big Data Analytics in Health
即将举行的公开课程
相关课程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 小时本课程面向希望在其应用程序中理解和实施人工智能的开发人员和数据科学家。 特别关注数据分析、分布式人工智能和自然语言处理。
Big Data Analytics with Google Colab and Apache Spark
14 小时这项由 讲师指导的现场培训中国(在线或现场)面向希望使用 Google Colab 和 Apache Spark 进行大数据处理和分析的中级数据科学家和工程师。
在本次培训结束时,参与者将能够:
- 使用 Google Colab 和 Spark 设置大数据环境。
- 使用 Apache Spark 高效处理和分析大型数据集。
- 在协作环境中可视化大数据。
- 将 Apache Spark 与基于云端的工具整合。
Big Data Analytics in Health
21 小时大数据分析涉及检查大量不同数据集的过程,以便发现相关性,隐藏模式和其他有用的见解。
健康产业拥有大量复杂的异构医学和临床数据。对健康数据应用大数据分析在获得改善医疗保健服务的见解方面具有巨大潜力。然而,这些数据集的巨大性给分析和临床环境的实际应用带来了巨大挑战。
在这个以讲师为主导的现场培训(远程)中,参与者将学习如何在健康状况下进行大数据分析,因为他们将逐步进行一系列动手实践练习。
在培训结束时,参与者将能够:
- 安装和配置大数据分析工具,如Hadoop MapReduce和Spark
- 了解医疗数据的特征
- 应用大数据技术处理医疗数据
- 在健康应用的背景下研究大数据系统和算法
听众
- 开发商
- 数据科学家
课程格式
- 部分讲座,部分讨论,练习和繁重的实践练习。
注意
- 要申请本课程的定制培训,请联系我们安排。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Hadoop and Spark for Administrators
35 小时这种由讲师指导的中国现场培训(现场或远程)针对的是希望学习如何在组织内设置,部署和管理Hadoop集群的系统管理员。
在培训结束时,参与者将能够:
- 安装和配置 Apache Hadoop。
- 了解 Hadoop 生态系统中的四个主要组件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分布式文件系统 (HDFS) 将集群扩展到数百或数千个节点。
- 将 HDFS 设置为本地 Spark 部署的存储引擎。
- 设置 Spark 以访问替代存储解决方案,例如 Amazon S3 和 NoSQL 数据库系统,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 执行管理任务,例如配置、管理、监控和保护 Apache Hadoop 集群。
Hortonworks Data Platform (HDP) for Administrators
21 小时这个由讲师指导的现场培训在 中国(在线或现场)介绍 Hortonworks Data Platform (HDP) 并引导参与者完成Spark + Hadoop 解决方案的部署。
在本次培训结束时,参与者将能够:
- 使用 Hortonworks 可靠地大规模运行 Hadoop。
- 将 Hadoop 的安全、治理和运营功能与Spark的敏捷分析工作流统一起来。
- 使用 Hortonworks 调查、验证、认证和支援 Spark 专案中的每个元件。
- 处理不同类型的数据,包括结构化、非结构化、动态和静态数据。
A Practical Introduction to Stream Processing
21 小时在这个以讲师为主导的中国现场培训(现场或远程)中,参与者将学习如何设置不同的Stream Processing框架并将其与现有的大数据存储系统以及相关的软件应用程序和微服务集成。
在培训结束时,参与者将能够:
- 安装和配置不同的 Stream Processing 框架,例如 Spark Streaming 和 Kafka Streaming。
- 了解并选择最适合工作的框架。
- 以逐条记录的方式连续、并发地处理数据。
- 将 Stream Processing 解决方案与现有数据库、数据仓库、数据湖等集成。
- 将最合适的流处理库与企业应用程序和微服务集成 。
SMACK Stack for Data Science
14 小时这种以讲师为主导的中国现场现场培训针对的是希望使用SMACK堆栈为大数据解决方案构建数据处理平台的数据科学家。
在培训结束时,参与者将能够:
- 实施用于处理大数据的数据管道体系结构。
- 使用 Apache Mesos 和 Docker 开发集群基础架构。
- 使用 Spark 和 Scala 分析数据。
- 使用 Apache Cassandra 管理非结构化数据。
Apache Spark Fundamentals
21 小时这种以讲师为主导的中国现场培训(现场或远程)针对的是希望建立和部署Apache Spark系统以处理大量数据的工程师。
在培训结束时,参与者将能够:
- 安装和配置 Apache Spark。
- 快速处理和分析非常大的数据集。
- 了解Apache Spark和Hadoop MapReduce之间的区别,以及何时使用哪个。
- 将 Apache Spark 与其他机器学习工具集成。
Administration of Apache Spark
35 小时这种由讲师指导的现场培训中国(远程或远程)面向希望部署、维护和优化 Spark 集群的初级到中级系统管理员。
在培训结束时,参与者将能够:
- 在各种环境中安装和配置 Apache Spark。
- 管理群集资源并监视 Spark 应用程序。
- 优化Spark集群性能。
- 实施安全措施并确保高可用性。
- 调试和排查常见的 Spark 问题。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Apache Spark MLlib
35 小时MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。它由常见的学习算法和实用程序组成,包括分类,回归,聚类,协同过滤,降维,以及低级优化原语和更高级别的管道API。
它分为两个包:
spark.mllib包含在RDD之上构建的原始API。
spark.ml提供了构建在DataFrame之上的更高级API,用于构建ML管道。
听众
本课程面向希望利用Apache Spark内置机器库的工程师和开发人员