课程大纲

设计开放AIOps架构

  • 开放AIOps管线的关键组件概述
  • 从数据摄取到警报的数据流
  • 工具比较与整合策略

数据收集与聚合

  • 使用Prometheus摄取时间序列数据
  • 使用Logstash和Beats捕获日志
  • 数据标准化以实现跨来源关联

构建可观察性仪表板

  • 使用Grafana可视化指标
  • 构建Kibana仪表板以进行日志分析
  • 使用Elasticsearch查询提取运营洞察

异常检测与事件预测

  • 将可观察性数据导出至Python管线
  • 训练ML模型以进行异常检测与预测
  • 在可观察性管线中部署模型以进行实时推理

使用开放工具进行警报与自动化

  • 创建Prometheus警报规则与Alertmanager路由
  • 触发脚本或API工作流以实现自动响应
  • 使用开源编排工具(如Ansible、Rundeck)

整合与可扩展性考量

  • 处理高容量数据摄取与长期保留
  • 开源堆栈中的安全性与访问控制
  • 独立扩展每一层:摄取、处理、警报

实际应用与扩展

  • 案例研究:性能调优、停机预防与成本优化
  • 使用追踪工具或服务图扩展管线
  • 在生产环境中运行与维护AIOps的最佳实践

总结与下一步

要求

  • 具备使用Prometheus或ELK等可观察性工具的经验
  • 掌握Python和机器学习基础知识
  • 了解IT运维和告警工作流程

受众

  • 高级站点可靠性工程师(SREs)
  • 从事运维工作的数据工程师
  • DevOps平台负责人和基础设施架构师
 14 小时

即将举行的公开课程

课程分类