Advanced Apache Iceberg 培训
Apache Iceberg 是一种用于大规模数据集的开源表格式,它将 SQL 表的可靠性和简单性引入大数据。它旨在解决在数据湖中管理大数据的挑战,这些挑战通常涉及处理复杂的架构、大文件和不同的数据源。
这种由讲师指导的现场培训(在线或现场)面向希望优化数据处理工作流程、确保数据完整性并实施能够处理现代大数据应用程序复杂性的强大数据湖仓一体解决方案的高级数据专业人员。
在培训结束时,参与者将能够:
- 深入了解 Iceberg 的架构,包括元数据管理和文件布局。
- 配置 Iceberg 以在各种环境中实现最佳性能,并将其与多个数据处理引擎集成。
- 管理大规模 Iceberg 表,执行复杂的架构更改,并处理分区演变。
- 掌握优化大型数据集查询性能和数据扫描效率的技术。
- 实施机制以确保数据一致性、管理事务保证和处理分布式环境中的故障。
课程形式
- 互动讲座和讨论。
- 大量的练习和练习。
- 在现场实验室环境中动手实施。
课程自定义选项
- 如需申请本课程的定制培训,请联系我们进行安排。
课程大纲
Apache Iceberg 简介
- Apache Iceberg 概述
- 基本概念回顾
深入了解冰山架构
- 深入分析Iceberg的表格格式
- 详细的体系结构概述,包括元数据和文件布局
- 架构和分区演变的内部结构
高级安装和配置
- 配置 Iceberg 以在不同环境中实现最佳性能
- 与各种数据处理引擎集成
- 高级设置:安全、加密和访问控制
- 在分布式环境中设置 Iceberg
高级运维
- 管理大型 Iceberg 表
- 实施和管理复杂的架构更改
- 处理分区演变和隐藏分区
- 具有架构和分区更改的高级 CRUD 操作
查询优化技术
- 减少查询延迟的技术
- 分区修剪和文件修剪
- 元数据缓存和优化策略
- 实现和测试查询优化技术
大型数据集的性能调优
- 优化大规模数据集的性能
- 使用 Iceberg 的内置功能进行性能调优
- 实际场景中性能调优的案例研究
- 优化大规模数据集的性能
高级数据迁移和集成
- 从其他系统迁移复杂的数据结构
- 将 Iceberg 与实时数据流集成
- 迁移复杂数据集并集成实时数据流
可靠性和一致性
- 确保分布式环境中的数据一致性和完整性
- 实施和管理交易担保
- 处理故障和恢复机制
- 实现可靠性和一致性功能
高级功能和定制
- 自定义目录实现
- 使用自定义功能扩展 Iceberg
- 实现自定义目录并扩展 Iceberg 功能
数据 Governance and compliance
- 实施数据治理策略
- 遵守数据法规
- 管理审计跟踪和数据沿袭
- 实现治理和合规性功能
摘要和后续步骤
要求
- 熟悉核心概念、基本操作、冰山表管理
观众
- 数据工程师
- 数据架构师
- 数据分析师
- 软件开发人员
需要帮助选择合适的课程吗?
Advanced Apache Iceberg 培训 - Enquiry
Advanced Apache Iceberg - 问询
问询
客户评论 (3)
培训师对概念有很好的把握
Josheel - Verizon Connect
课程 - Amazon Redshift
机器翻译
analytical functions
khusboo dassani - Tech Northwest Skillnet
课程 - SQL Advanced
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
课程 - Data Vault: Building a Scalable Data Warehouse
即将举行的公开课程
相关课程
SQL Advanced
14 小时This instructor-led, live training in 中国 (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
- Perform advanced querying techniques using unions, subqueries, and complex joins.
- Add, update, and delete data, tables, views, and indexes with precision.
- Ensure data integrity through transactions and manipulate database structures.
- Create and manage databases efficiently for robust data storage and retrieval.
Amazon Redshift
21 小时Amazon Redshift 是 AWS 中基于云的 PB 级数据仓库服务。
在这个由讲师指导的现场培训中,参与者将学习 Amazon Redshift 的基础知识。
在本次培训结束时,参与者将能够:
- 安装与设定Amazon Redshift
- 使用 Amazon Redshift 载入、配置、部署、查询和可视化数据
观众
- 开发人员
- IT 专业人员
课程形式
- 部分讲座、部分讨论、练习和大量动手实践
注意
- 要申请本课程的定制培训,请联系我们进行安排。
Apache Iceberg Fundamentals
14 小时这种以讲师为主导的 <>loc(在线或远程)实时培训面向希望获得有效利用 Apache Iceberg 管理大规模数据集、确保数据完整性和优化数据处理工作流程所需的知识和技能的初级数据专业人员。
在培训结束时,参与者将能够:
- 全面了解 Apache Iceberg 的架构、功能和优势。
- 了解表格式、分区、架构演变和时间旅行功能。
- 在不同的环境中安装和配置 Apache Iceberg。
- 创建、管理和操作 Iceberg 表。
- 了解将数据从其他表格式迁移到 Iceberg 的过程。
Big Data Consulting
21 小时这种以讲师为主导的 中国(在线或现场)现场培训面向希望提高数据架构、治理、云计算和大数据技术技能的中级 IT 专业人员,以有效管理和分析大型数据集以在组织内进行数据迁移。
在培训结束时,参与者将能够:
- 了解各种数据架构的基本概念和组件。
- 全面了解数据治理原则及其在监管环境中的重要性。
- 实施和管理数据治理框架,例如 Dama 和 Togaf。
- 利用云平台实现高效的数据存储、处理和管理。
Azure Data Lake Storage Gen2
14 小时这种由讲师指导的 中国(远程或远程)实时培训面向希望了解如何使用 Azure Data Lake Storage Gen2 实现有效数据分析解决方案的中级数据工程师。
在培训结束时,参与者将能够:
- 了解 Azure Data Lake Storage Gen2 的体系结构和主要功能。
- 优化数据存储和访问,提高成本和性能。
- 将 Azure Data Lake Storage Gen2 与其他 Azure 服务集成,以进行分析和数据处理。
- 使用 Azure Data Lake Storage Gen2 API 开发解决方案。
- 解决常见问题并优化存储策略。
Data Vault:构建可扩展的数据仓库
28 小时在这个由 中国 讲师指导的现场培训中,参与者将学习如何构建 Data Vault。
在本次培训结束时,参与者将能够:
- 了解 Data Vault 2.0 背后的架构和设计概念,以及它与 Big Data、NoSQL 和 AI 的交互。
- 使用数据保险库技术对数据仓库中的历史数据进行审计、跟踪和检查。
- 开发一致且可重复的 ETL(提取、转换、载入)流程。
- 构建和部署高度可扩展且可重复的仓库。
Apache Druid for Real-Time Data Analysis
21 小时Apache Druid是一个用Java编写的开源,面向列的分布式数据存储。它旨在快速获取大量事件数据,并对该数据执行低延迟OLAP查询。德鲁伊通常用于商业智能应用程序,以分析大量的实时和历史数据。它还非常适合为最终用户提供快速,交互式分析仪表板。德鲁伊被阿里巴巴,Airbnb, Cisco ,eBay,Netflix,Paypal和雅虎等公司使用。
在这个由讲师指导的实时课程中,我们探讨了数据仓库解决方案的一些局限性,并讨论了德鲁伊如何能够补充这些技术以形成灵活且可扩展的流分析堆栈。我们通过许多示例,为参与者提供在实验室环境中实施和测试基于德鲁伊的解决方案的机会。
课程格式
- 部分讲座,部分讨论,繁重的实践练习,偶尔的测试来衡量理解
Greenplum Database
14 小时这种以讲师为主导的中国现场培训(现场或远程)针对的是希望设置Greenplum Database商业智能和数据仓库解决方案的管理员。
在培训结束时,参与者将能够:
- 使用Greenplum满足加工需求。
- 执行ETL操作进行数据处理。
- 利用现有的查询处理基础结构。
IBM Datastage For Administrators and Developers
35 小时这种以讲师为主导的中国现场培训(现场或远程)面向希望从管理和开发角度全面了解IBM DataStage的中级IT专业人员,使他们能够在各自的工作场所有效地管理和利用此工具。
在培训结束时,参与者将能够:
- 了解 DataStage 的核心概念。
- 了解如何有效地安装、配置和管理 DataStage 环境。
- 连接到各种数据源,并从数据库、平面文件和外部源高效提取数据。
- 实施有效的数据加载技术。
Apache Kylin: Real-Time OLAP on Big Data
14 小时这是由讲师指导的中国(线上或线下)培训,针对希望利用Apache Kylin构建即时数据仓库并对大规模数据集进行多维分析的中级大数据专业人员。
在培训结束时,参与者将能够:
- 设置和配置Apache Kylin以处理即时流数据源。
- 设计和构建用于批处理和流数据的OLAP立方体。
- 使用Kylin的SQL界面执行具有亚秒级延迟的复杂查询。
- 将Kylin与BI工具集成,以实现互动式数据可视化。
- 在Kylin中有效优化性能并管理资源。
Oracle SQL for Development and Database Management
35 小时这种讲师指导的现场培训在 中国(在线或现场)进行,面向希望提高 Oracle SQL 开发和管理技能的中级资料库专业人员。
在本次培训结束时,参与者将能够:
- 构建和优化复杂的 SQL 查询。
- 使用 Oracle SQL 工具高效管理资料库。
- 在资料库开发和维护中应用最佳实践。
- 在 Oracle 环境中管理使用者访问和资料库安全性。