感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
设计开放AIOps架构
- 开放AIOps管线的关键组件概述
- 从数据摄取到警报的数据流
- 工具比较与整合策略
数据收集与聚合
- 使用Prometheus摄取时间序列数据
- 使用Logstash和Beats捕获日志
- 数据标准化以实现跨来源关联
构建可观察性仪表板
- 使用Grafana可视化指标
- 构建Kibana仪表板以进行日志分析
- 使用Elasticsearch查询提取运营洞察
异常检测与事件预测
- 将可观察性数据导出至Python管线
- 训练ML模型以进行异常检测与预测
- 在可观察性管线中部署模型以进行实时推理
使用开放工具进行警报与自动化
- 创建Prometheus警报规则与Alertmanager路由
- 触发脚本或API工作流以实现自动响应
- 使用开源编排工具(如Ansible、Rundeck)
整合与可扩展性考量
- 处理高容量数据摄取与长期保留
- 开源堆栈中的安全性与访问控制
- 独立扩展每一层:摄取、处理、警报
实际应用与扩展
- 案例研究:性能调优、停机预防与成本优化
- 使用追踪工具或服务图扩展管线
- 在生产环境中运行与维护AIOps的最佳实践
总结与下一步
要求
- 具备使用Prometheus或ELK等可观察性工具的经验
- 掌握Python和机器学习基础知识
- 了解IT运维和告警工作流程
受众
- 高级站点可靠性工程师(SREs)
- 从事运维工作的数据工程师
- DevOps平台负责人和基础设施架构师
14 小时