Product DDG LabDesign, Develop, Grow with AI

Sub-Process

インシデント管理

インシデント発生時のトリアージ・根本原因分析・復旧対応・再発防止を行うフェーズ。オンコール体制の管理とエスカレーション、ポストモーテムによる継続的改善を含む。

デプロイ・運用MTTR: 数時間〜数日 → 目標: 分単位

AI進化方向性

AIエージェントが障害を自動検知し、ランブックに基づく修復手順を自律実行。ログ・メトリクス・トレースの横断分析によるRCAを数分で完了し、予測モデルがインシデント発生前に予防策を自動提案。

ロール

SRE
DevOpsエンジニア

ツール

PagerDuty AI— AIインシデント管理・レスポンス
Kubiya— クラウドネイティブDevOps向けAI

包含アクティビティ

インシデント対応PagerDuty・OpsGenie等でオンコール体制を管理し、インシデント発生時のトリアージ・エスカレーション・コミュニケーション・復旧対応を実施するポストモーテム・再発防止インシデント後にタイムライン作成・根本原因分析・影響範囲確定を行い、再発防止策の策定と改善アクションの進捗追跡を通じて組織学習を促進する

関連記事

従来の開発 vs AIファースト開発primary AIエージェントワークフロー実践ガイドsupporting AIツール選定と導入事例supporting