联系我们

AIOps实战：事件预测与根因自动化培训

AIOps（IT运营人工智能）正越来越多地用于在事件发生前进行预测，并自动化根因分析（RCA），以最大限度地减少停机时间并加速问题解决。

本次由讲师指导的培训（线上或线下）面向高级IT专业人员，旨在帮助他们使用AIOps工具和机器学习模型，实施预测分析、自动化修复，并设计智能RCA工作流。

培训结束后，参与者将能够：

构建并训练ML模型，以检测导致系统故障的模式。
基于多源日志和指标关联，自动化RCA工作流。
将告警和修复流程集成到现有平台中。
在生产环境中部署和扩展智能AIOps管道。

课程形式

互动式讲座与讨论。
大量练习与实践。
在实时实验室环境中进行实际操作。

课程定制选项

如需为本课程定制培训，请联系我们进行安排。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

预测性AIOps简介

IT运营中的预测分析概述。
用于预测的数据源（日志、指标、事件）。
时间序列预测与异常模式的关键概念。

设计事件预测模型

标记历史事件与系统行为。
选择并训练模型（如LSTM、随机森林、AutoML）。
评估模型性能与处理误报。

数据收集与特征工程

为模型输入摄取并对齐日志与指标数据。
从结构化和非结构化数据中提取特征。
处理运营管道中的噪声与缺失数据。

自动化根因分析（RCA）

基于图的服务与基础设施关联。
使用ML从事件链中推断可能的根因。
使用拓扑感知仪表板可视化RCA。

修复与工作流自动化

与自动化平台（如Ansible、Rundeck）集成。
触发回滚、重启或流量重定向。
审核并记录自动化干预措施。

扩展智能AIOps管道

可观测性的MLOps：重新训练与模型版本控制。
在分布式节点上实时运行预测。
在生产环境中部署AIOps的最佳实践。

案例研究与实际应用

使用预测性AIOps模型分析真实事件数据。
使用合成数据和生产数据部署RCA管道。
行业用例回顾：云中断、微服务不稳定、网络退化。

总结与后续步骤

要求

具备Prometheus或ELK等监控系统的使用经验。
具备Python和基础机器学习的知识。
熟悉事件管理工作流。

受众

高级站点可靠性工程师（SREs）。
IT自动化架构师。
DevOps与可观测性平台负责人。

14 小时

需要帮助选择合适的课程吗？
china@nobleprog.com 或拨打 400 6116 540

即将举行的公开课程

相关课程

AIOps基础：监控、关联与智能告警

14 小时

使用开源工具构建AIOps管道

14 小时

Enterprise AIOps with Splunk, Moogsoft, and Dynatrace

14 小时

实施 AIOps 与 Prometheus、Grafana 及 ML

14 小时

课程分类

该网站在其他国家/地区

Europe

Österreich (Austria) Schweiz (Switzerland) Deutschland (Germany) Czech Republic Denmark Estonia Finland Greece Magyarország (Hungary) Ireland Luxembourg Latvia España (Spain) Italia (Italy) Lithuania Nederland (Netherlands) Norway Portugal România (Romania) Sverige (Sweden) Türkiye (Turkey) Malta Belgique (Belgium) France Polska (Poland) United Kingdom Bulgaria Moldova Slovakia Slovenia Croatia Serbia

North America

Canada USA Costa Rica Guatemala México (Mexico) Panama

South America

Brasil (Brazil) Argentina Chile Ecuador Colombia Peru Uruguay Venezuela Bolivia

Africa / Middle East

United Arab Emirates Qatar Egypt Saudi Arabia South Africa Morocco Tunisia Kuwait Oman Kenya Nigeria Botswana

Other sites

人力资源培训材料 NobleProg 特许经营 DaDesktop - 云桌面