课程大纲
数据仓库概念
- 什么是 Data Ware?
- OLTP 和 Data Ware Housing 之间的区别
- 数据采集
- 数据提取
- 数据转换。
- 数据加载
- 数据集市
- 从属数据集市与独立数据集市
- 数据库设计
ETL 测试概念:
- 介绍。
- 软件开发生命周期。
- 测试方法。
- ETL 测试工作流程。
- 数据阶段的 ETL 测试职责。
大数据基础
- Big Data 及其在企业界的作用
- 公司内部 Big Data 战略的发展阶段
- 解释整体方法的基本原理 Big Data
- Big Data 平台所需的组件
- 大数据存储解决方案
- 传统技术的局限性
- 数据库类型概述
否SQL 数据库
Hadoop
Map Reduce(地图缩减)
Apache Spark
需要帮助选择合适的课程吗?
Big Data & Database Systems Fundamentals 培训 - Enquiry
Big Data & Database Systems Fundamentals - 问询
问询
客户评论 (5)
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
课程 - Data Vault: Building a Scalable Data Warehouse
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
课程 - Apache NiFi for Administrators
That I had it in the first place.
Peter Scales - CACI Ltd
课程 - Apache NiFi for Developers
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
课程 - Python and Spark for Big Data (PySpark)
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
课程 - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
即将举行的公开课程
相关课程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 小时本课程面向希望在其应用程序中理解和实施人工智能的开发人员和数据科学家。 特别关注数据分析、分布式人工智能和自然语言处理。
Unified Batch and Stream Processing with Apache Beam
14 小时Apache Beam 是一个开源的统一程式设计模型,用于定义和执行并行数据处理管道。它的强大之处在于它能够同时运行批处理和流式管道,执行由 Beam 支援的分散式处理后端之一执行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 对于 ETL(提取、转换和载入)任务非常有用,例如在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式以及将数据载入到新系统。
在这个由讲师指导的现场培训(现场或远端)中,参与者将学习如何在 Java 或 Python 应用程式中实施 Apache Beam SDK,该应用程式定义了一个数据处理管道,用于将大数据集分解成更小的块,以进行独立的并行处理。
在本次培训结束时,参与者将能够:
- 安装和配置 Apache Beam。
- 使用单个程式设计模型从其 Java 或 Python 应用程式执行批处理和流处理。
- 跨多个环境执行管道。
课程形式
- 部分讲座、部分讨论、练习和大量动手实践
注意
- 本课程将在未来提供 Scala。请联系我们安排。
NoSQL Database with Microsoft Azure Cosmos DB
14 小时这种由讲师指导的中国 现场培训(现场或远程)面向希望使用Microsoft Azure Cosmos DB开发和管理高响应和低延迟应用程序的数据库管理员或开发人员。
在培训结束时,参与者将能够:
- 预配必要的 Cosmos DB 资源以开始生成数据库和应用程序。
- 利用 Cosmos DB 中的 API 缩放应用程序性能和存储。
- 通过优化 Cosmos DB 资源来管理数据库操作并降低成本。
Data Vault:构建可扩展的数据仓库
28 小时在这个由 中国 讲师指导的现场培训中,参与者将学习如何构建 Data Vault。
在本次培训结束时,参与者将能够:
- 了解 Data Vault 2.0 背后的架构和设计概念,以及它与 Big Data、NoSQL 和 AI 的交互。
- 使用数据保险库技术对数据仓库中的历史数据进行审计、跟踪和检查。
- 开发一致且可重复的 ETL(提取、转换、载入)流程。
- 构建和部署高度可扩展且可重复的仓库。
Apache Flink Fundamentals
28 小时这个由 中国 的讲师指导式现场培训(在线或现场)介绍了分散式流和批处理数据处理背后的原理和方法,并引导参与者在 Apache Flink 中创建实时数据流应用程式。
在本次培训结束时,参与者将能够:
- 设置用于开发数据分析应用程式的环境。
- 了解 Apache Flink 的 图形处理库 (Gelly) 的工作原理。
- 打包、执行和监控基于 Flink 的容错数据流应用程式。
- 管理各种工作负载。
- 执行高级分析。
- 设置多节点 Flink 集群。
- 衡量和优化性能。
- 将 Flink 与不同的 Big Data 系统集成。
- 将 Flink 功能与其他大数据处理框架的功能进行比较。
图形计算简介
28 小时在这个由 中国 的讲师指导式现场培训中,参与者将了解用于处理图形数据的技术产品和实施方法。目的是识别现实世界的物件、它们的特征和关系,然后对这些关系进行建模,并使用 Graph Computing(也称为图形分析)方法将它们作为数据处理。我们从广泛的概述开始,然后逐步完成一系列案例研究、动手练习和即时部署,然后缩小具体工具的范围。
在本次培训结束时,参与者将能够:
- 了解如何持久保存和遍历图形数据。
- 为给定任务选择最佳框架(从图形资料库到批处理框架)。
- 实现 Hadoop、Spark GraphX 和 Pregel 以跨多台机器并行执行图计算。
- 从图形、流程和遍历的角度查看真实的大数据问题。
Confluent KSQL
7 小时这个由 讲师指导的 中国 现场培训(在线或现场)面向希望在不编写代码的情况下实现 Apache Kafka 流处理的开发人员。
在本次培训结束时,参与者将能够:
- 安装和配置 Confluent KSQL。
- 仅使用 SQL 命令(无 Java 或 Python 编码)设置流处理管道。
- 完全在 SQL 中执行数据过滤、转换、聚合、连接、视窗化和会话化。
- 为流式 ETL 和即时分析设计和部署互动式连续查询。
Apache NiFi for Administrators
21 小时在这个以讲师为主导的中国现场或远端培训中,参与者将学习如何在实时实验室环境中部署和管理Apache NiFi。
在培训结束时,参与者将能够:
- 安装并配置 Apachi NiFi。
- 从不同的分散式数据源(包括资料库和大数据湖)中获取、转换和管理数据。
- 自动化数据流。
- 启用流分析。
- 应用各种方法进行数据引入。
- 转换 Big Data 并转化为业务洞察。
Apache NiFi for Developers
7 小时在这个由讲师指导的 中国 现场培训中,参与者将学习基于流程的程式设计的基础知识,因为他们使用 Apache NiFi 开发许多演示扩展、元件和处理器。
在培训结束时,参与者将能够:
- 了解 NiFi 的架构和数据流概念。
- 使用 NiFi 和第三方 API 开发扩展。
- 定制开发自己的Apache Nifi处理器。
- 从不同和不常见的档格式和数据源中摄取和处理实时数据。
用Spark和Python通过PySpark处理大数据
21 小时在这个由讲师指导的 中国 现场培训中,参与者将学习如何在动手练习中同时使用 Python 和 Spark 来分析大数据。
在培训结束时,参与者将能够:
- 了解如何将 Spark 与 Python 结合使用来分析 Big Data。
- 进行模仿真实世界案例的练习。
- 使用 PySpark 使用不同的工具和技术进行大数据分析。
Spark Streaming with Python and Kafka
7 小时这种以讲师为主导的中国现场培训(现场或远程)针对希望使用Spark Streaming功能处理和分析实时数据的数据工程师,数据科学家和程序员。
在本次培训结束时,参与者将能够使用 Spark Streaming 处理实时数据流,以便在数据库、文件系统和实时仪表板中使用。