课程大纲

Apache Iceberg 简介

  • Apache Iceberg 概述
  • 基本概念回顾

深入探讨 Iceberg 架构

  • 深入分析 Iceberg 的表格式
  • 详细架构概述,包括元数据和文件布局
  • 模式和分区演化的内部机制

高级安装与配置

  • 在不同环境中配置 Iceberg 以实现最佳性能
  • 与各种数据处理引擎集成
  • 高级设置:安全性、加密和访问控制
  • 在分布式环境中设置 Iceberg

高级操作与维护

  • 管理大规模 Iceberg 表
  • 实施和管理复杂的模式变更
  • 处理分区演化和隐藏分区
  • 结合模式和分区变化的高级 CRUD 操作

查询优化技术

  • 减少查询延迟的技术
  • 分区剪枝和文件剪枝
  • 元数据缓存和优化策略
  • 实施和测试查询优化技术

大规模数据集的性能调优

  • 优化大规模数据集的性能
  • 使用 Iceberg 内置功能进行性能调优
  • 真实场景中的性能调优案例研究
  • 大规模数据集的性能调优

高级数据迁移与集成

  • 从其他系统迁移复杂数据结构
  • 将 Iceberg 与实时数据流集成
  • 迁移复杂数据集并集成实时数据流

可靠性与一致性

  • 在分布式环境中确保数据一致性和完整性
  • 实施和管理事务保证
  • 处理故障和恢复机制
  • 实施可靠性和一致性功能

高级功能与定制

  • 自定义目录实现
  • 使用自定义功能扩展 Iceberg
  • 实现自定义目录并扩展 Iceberg 功能

数据治理与合规性

  • 实施数据治理策略
  • 遵守数据法规
  • 管理审计跟踪和数据血缘
  • 实施治理和合规性功能

总结与下一步

要求

  • 熟悉核心概念、基本操作以及Iceberg表管理

受众

  • 数据工程师
  • 数据架构师
  • 数据分析师
  • 软件开发人员
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类