课程大纲

Kafka管理基础

  • Kafka在现代数据平台中的定位及典型生产职责。
  • 操作员的核心概念:broker、主题、分区、偏移量、消费者组。
  • 复制基础:leader和follower、同步副本、可用性权衡。
  • Kafka操作亮点及运行手册中的常见术语。

KRaft模式与集群设计

  • KRaft基础:控制器、元数据仲裁、选举及其操作意义。
  • 部署规划:吞吐量、分区、保留和增长的容量规划。
  • 节点角色和布局:组合控制器与专用控制器,故障域考虑。
  • 实验:检查KRaft元数据,验证仲裁健康,并解读控制器日志。

安装、配置与日常操作

  • 安装方法(包、压缩包、容器)及企业环境中的标准化。
  • 影响可靠性的核心broker配置:监听器、复制、日志目录、保留。
  • 安全服务操作:启动顺序、优雅关闭和验证检查。
  • 实验:部署多节点集群,验证broker注册,确认基础生产和消费。

管理主题、分区与数据放置

  • 使用Kafka CLI管理主题生命周期:创建、描述、更新配置、删除。
  • 为实际工作负载选择分区和复制因子,包括常见反模式。
  • 重新分配与平衡:何时移动分区及如何安全验证进度。
  • 实验:创建主题,触发分区重新分配,模拟broker故障,并确认恢复。

为生产环境保护Kafka

  • TLS用于客户端和broker间流量:证书、信任链和验证步骤。
  • 使用SASL进行身份验证:选择常见机制并避免配置错误。
  • 使用ACL进行授权:管理员、生产者和消费者的最小权限模式。
  • 实验:启用TLS和SASL,验证客户端连接,并为应用角色应用ACL。

可观测性、可靠性与故障排除

  • 监控要点:控制器健康、未同步分区、请求延迟、磁盘和网络饱和。
  • 日志与指标:读取broker日志,并通过JMX导出器将指标暴露给常见的可观测性堆栈。
  • 操作手册:滚动重启、安全配置更改、处理磁盘满和ISR问题。
  • 实验:构建最小警报集,诊断降级集群,并恢复健康的复制。

升级与灾难恢复准备

  • Kafka升级规划:兼容性检查、分阶段和回滚方法。
  • 备份与恢复期望:可备份的内容、不可备份的内容及配置恢复基础。
  • 跨集群复制概述及何时使用MirrorMaker 2进行灾难恢复和迁移。
  • 总结:操作清单、交接文档及生产部署的下一步。

要求

  • 了解基本的Linux管理(用户、服务、文件、权限)。
  • 具备TCP/IP网络概念的经验(DNS、端口、防火墙、负载均衡器)。
  • 具备基本的脚本编写经验(Bash、PowerShell或类似工具)以处理日常操作任务。

受众

  • 负责操作Kafka集群的Kafka管理员和平台工程师。
  • 支持流媒体平台的站点可靠性工程师和DevOps工程师。
  • 部署新的基于KRaft的Kafka集群或从ZooKeeper迁移的基础设施和运维团队。
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类