Activity
インシデント対応
PagerDuty・OpsGenie等でオンコール体制を管理し、インシデント発生時のトリアージ・エスカレーション・コミュニケーション・復旧対応を実施する
デプロイ・運用operations-traditional-5
詳細定義
PagerDutyでアラートを受信し、オンコールエンジニアが手動でトリアージ、調査、復旧作業を行う。ポストモーテムで再発防止策を策定する。
AI進化方向性
AIがインシデント発生時に自動でランブック実行・影響範囲特定・コミュニケーション生成を実施。人間はエスカレーション判断と事後レビューに集中
アクション
- PagerDuty経由でのアラート受信とエスカレーション
- オンコールエンジニアによる初動トリアージ
- ログ・メトリクス確認による手動根本原因調査
- 復旧作業(ロールバック、リソース増強等)
- ポストモーテムミーティング実施
- 過去インシデントとメトリクスの相関分析
- 障害予測モデル構築と精度向上
- 高リスク状況での早期警告アラート自動発報
- 予測根拠の可視化提示
- 予防的アクションのレコメンデーション
- 修復可能な障害パターンとアクションのプレイブック定義
- 異常検知トリガーと修復ワークフローの統合
- Ansible/Terraform等による修復スクリプト自動実行
- 修復結果の検証と成功/失敗判定
- 関連ログ・メトリクス・トレースを自動収集
- サービス依存関係グラフとイベントタイムラインを解析
- 異常パターンと過去類似インシデントとのマッチング
- 根本原因候補の優先順位付きリスト自動生成