课程大纲

NiFi与数据流基础

  • 动态数据与静态数据:概念与挑战
  • NiFi架构:核心、流控制器、数据溯源与公告
  • 关键组件:处理器、连接、控制器与数据溯源

大数据背景与集成

  • NiFi在大数据生态系统中的角色(Hadoop、Kafka、云存储)
  • HDFS、MapReduce及现代替代方案的概述
  • 使用案例:流数据摄取、日志传输、事件管道

安装、配置与集群设置

  • 在单节点和集群模式下安装NiFi
  • 集群配置:节点角色、Zookeeper与负载均衡
  • 使用Ansible、Docker或Helm编排NiFi部署

设计与管理数据流

  • 路由、过滤、拆分、合并数据流
  • 处理器配置(InvokeHTTP、QueryRecord、PutDatabaseRecord等)
  • 处理模式、数据丰富与转换操作
  • 错误处理、重试关系与背压

集成场景

  • 连接数据库、消息系统、REST API
  • 流数据到分析系统:Kafka、Elasticsearch或云存储
  • 与Splunk、Prometheus或日志管道集成

监控、恢复与数据溯源

  • 使用NiFi UI、指标与数据溯源可视化工具
  • 设计自动恢复与优雅的故障处理
  • 备份、流版本控制与应变管理

性能调优与优化

  • 调优JVM、堆、线程池与集群参数
  • 优化流设计以减少瓶颈
  • 资源隔离、流优先级与吞吐量控制

最佳实践与治理

  • 流文档、命名标准、模块化设计
  • 安全性:TLS、身份验证、访问控制、数据加密
  • 变更控制、版本控制、基于角色的访问、审计跟踪

故障排除与事件响应

  • 常见问题:死锁、内存泄漏、处理器错误
  • 日志分析、错误诊断与根本原因调查
  • 恢复策略与流回滚

实践实验室:真实数据管道实现

  • 构建端到端流:摄取、转换、交付
  • 实现错误处理、背压与扩展
  • 性能测试与管道调优

总结与下一步

要求

  • 具备Linux命令行经验
  • 对网络和数据系统有基本了解
  • 接触过数据流或ETL概念

受众

  • 系统管理员
  • 数据工程师
  • 开发者
  • DevOps专业人员
 21 小时

客户评论 (7)

即将举行的公开课程

课程分类