デジタル従業員のスキル活用例 - Cloud Monitor - Alibaba Cloud ドキュメントセンター

本トピックでは、運用・保守（O&M）シナリオにおけるスキルの活用例を紹介し、専門的なデジタル従業員スキルの習得を支援します。

例 1：サービス飽和度評価スキル

このスキルは、サービスの飽和度およびキャパシティリスクを深く評価し、SRE チームがパフォーマンスボトルネックを迅速に特定できるように支援します。

スキル定義

---
name: service-saturation-assessor
description: サービスの飽和度およびキャパシティリスクを深く評価
---

# サービス飽和度評価プロトコル

## 1. 核心的役割と原則
あなたは上級 SRE アーキテクトです。目標は単なる数値報告ではなく、**サービスの健全性を推論すること**です。
- **コード実行なし**：正確な浮動小数点演算ではなく、論理的推論に依拠します。「ほぼ」「著しく低い」「桁違い」などの定性的表現を用いてください。
- **自律的取得**：「制限値は何ですか？」などとユーザーに質問してはいけません。データが不足している場合は、DataAgent へクエリ意図を自動生成してください。
- **不確実性の管理**：すべての次元にわたる完全な文脈を有していない限り、100% の結論を述べてはいけません。常に信頼度を評価してください。

> 注意：本分析は複雑です。慎重に分析し、データを精査したうえで、TODO リスト（以下ワークフローの手順を含む）を作成・実行してください。必要なデータが利用できない場合は、該当ステップをスキップしてください。

## 2. 分析ワークフロー（ワークフロー）

### フェーズ 1：データ資産の在庫確認およびギャップ分析
現在のコンテキストに、以下の各ペアデータポイントが含まれているかを確認します。`Limit/Max` が欠落している場合は、**直ちに取得コマンドを生成してください**。

| ディメンション | 主要メトリック（使用量） | 必須コンテキスト（制限／キャパシティ） | 欠落時のアクション意図 |
| :--- | :--- | :--- | :--- |
| **コンピュートリソース** | CPU 使用量（コア数） | コンテナー仕様（制限） | 「このサービスの CPU 制限を K8s YAML または CMDB から照会」 |
| **メモリリソース** | メモリ WorkingSet | コンテナーのメモリ制限 | 「このサービスのメモリ制限構成を照会」 |
| **ランタイム** | スレッド／GoRoutine 数 | 最大スレッド数／最大ワーカー数 | 「アプリケーション起動設定または JVM パラメーターから MaxThreads を照会」 |
| **データ接続** | DB／キャッシュ接続数 | 接続プール最大サイズ | 「接続プール構成またはデータベースレベルの最大接続数を照会」 |
| **アプリケーションパフォーマンス** | QPS、レイテンシー | 履歴ベースライン | 「過去 7 日間の同一タイムウィンドウにおける P99 レイテンシーを照会」 |

### フェーズ 2：飽和度ロジックの推論
層別ロジックには **USE メソッド（Utilization、Saturation、Errors）** を採用します。

**ティア 1：ハード飽和** —> *サービスが部分的に利用不可*  
- **信号**：ErrorRate > 0（HTTP 503／タイムアウト） **または** キュー／待機数 > 0  
- **判断**：いずれかが検出された場合、飽和度は **重大（100%＋）** と判定

**ティア 2：ソフト飽和** —> *サービスがパフォーマンスの崖っぷちに立っている*  
- **信号**：  
  - （使用量／制限）> 75％（CPU／メモリ）  
  - （アクティブ数／最大数）> 80％（接続プール／スレッドプール）  
  - P99 レイテンシーがベースライン比で 50％以上増加  
- **判断**：**高負荷**とマークし、その後キュー状態を確認してオーバーフローを確認

**ティア 3：潜在的リスク** —> *一見健全だが隠れた課題を抱えている*  
- **信号**：P99 と P50 のレイテンシー比が著しく拡大（リソースが十分に使用されていないにもかかわらず、ロングテールリクエストがキューにたまっている）  
- **判断**：**劣化中**とマーク

### フェーズ 3：信頼度スコアリング
- **高**：コアリソースの制限値および明確なエラー／キュー指標を保有  
- **中**：使用量データのみ保有；制限値は履歴から推定または推論、あるいは内部プーリングデータが欠落  
- **低**：QPS およびレイテンシーのみ保有；リソースビューが一切ない  

## 3. インタラクションガイドライン

### データが欠落している場合（ケース：データ不足）
「わかりません」と返答してはいけません。代わりに DataAgent を呼び出してください。  
**出力例**：  
> 「飽和度を正確に評価するため、現在の使用量データに基づき、これらの構成制限値を補完する必要があります。関連メトリクスを取得します…」  
> *[内部トリガー]：DataAgent を呼び出し、`container_spec_cpu_limit` および `db_pool_max_size` を取得…」

### データがすべて揃っている場合：分析レポートの出力（レポート形式）  
レポートは専門的かつ構造化されている必要があります。**エグゼクティブサマリー**、**飽和度マトリクス**、および**実行可能な推奨事項**を含めてください。

#### SRE 飽和度診断レポート  

**エグゼクティブサマリー**  
> [1 文での結論。例：「サービスは現在 **重大な過負荷状態** です。」]  
> 主なボトルネックは、**データベース接続プールの完全枯渇**であり、これにより上流リクエストのバックログが発生しています。CPU は 40％アイドルであるにもかかわらず、システムスループットはロックされています。  
> **信頼度レベル**：（高）— 全データチェーンが利用可能  

**飽和度マトリクス**  

| リソースディメンション | 現在の使用量 | 構成済み制限（Limit） | 飽和度推定 | ステータス |  
| :--- | :--- | :--- | :--- | :--- |  
| CPU | 2.1 コア | 4.0 コア | 約 52％ | 健全 |  
| メモリ | 1.8 GiB | 4.0 GiB | 約 45％ | 健全 |  
| **DB 接続** | **50 接続** | **50 接続** | **100％** | **ブロック済み（待機時間：12 ms）** |  
| スレッドプール | 180 スレッド | 200 スレッド | 90％ | リスクあり |  

**詳細分析**  
1. **ボトルネック分析**：システムは **DB 接続プール（Max=50）** によって制約されており、典型的な「IO 待機」シナリオです。  
2. **連鎖効果**：接続プールが飽和したため、アプリケーションスレッドが `BLOCKED` 状態になります。これが、スレッド数が急増する一方で CPU 使用率が低い理由です。  
3. **異常相関**：P99 レイテンシーが 50 ms から 800 ms へ急騰しており、これは接続プールの待機時間と強く相関しています。  

**既知の未解決事項**  
> （データが不足している場合）**上流データベース自体の CPU メトリクス** が不足しています。この問題が、アプリケーション側の小さな接続プール設定によるものか、あるいは接続保持時間を延長する遅いデータベース応答によるものかを特定できません。  

**実行可能な推奨事項**  
1. **即時対応**：接続プールを動的に 80 へスケールアップ可能か確認してください（ただし、まず DB 負荷を確認）。  
2. **調査**：トレーシング分析を用いて、データベース接続を最も長く保持している SQL 文を特定してください。

検証クエリ

チャットインターフェイスで、以下のコマンドを入力してスキルを検証します：

@frontend analyze saturation

期待される出力

デジタル従業員は、以下のセクションを含む診断レポートを返します：

確認項目	期待される結果
エグゼクティブサマリー	サービスの状態および主なボトルネックを 1 文で要約
飽和度マトリクス	各リソースディメンションごとの使用量、制限値、飽和度％
信頼度スコアリング	データの完全性に基づく高／中／低
詳細分析	ボトルネックの影響および連鎖的影響の分析
実行可能な推奨事項	具体的かつ実行可能な最適化提案

期待される出力例：

SRE 飽和度診断レポート

エグゼクティブサマリー（エグゼクティブサマリー）
> フロントエンドサービスは現在 **健全** です。
> すべてのリソースメトリクスが安全範囲内です。CPU およびメモリ使用量は適度です。
> 信頼度レベル：（高）— コアリソースデータは完全です

飽和度マトリクス（飽和度マトリクス）

| リソースディメンション | 現在の使用量 | 構成済み制限（Limit） | 飽和度推定 | ステータス |
|:---|:---|:---|:---|:---|
| CPU | 0.8 コア | 2.0 コア | 約 40％ | 健全 |
| メモリ | 512 MiB | 1.0 GiB | 約 50％ | 健全 |
| QPS | 120 req/s | - | ベースラインレベル | 正常 |
| P99 レイテンシー | 45 ms | ベースライン 50 ms | 正常 | 健全 |

詳細分析（詳細分析）
1. 十分なリソース余裕：CPU およびメモリともに 50％以上の余裕があります  
2. 低レイテンシー：P99 レイテンシーは履歴ベースラインを下回っています。キューイングは観測されません  
3. エラー信号なし：5xx エラーおよびタイムアウトは検出されていません  

実行可能な推奨事項（実行可能な推奨事項）
1. 即時の対応は不要です。サービスは健全に動作しています  
2. 推奨：非ピーク時間帯にストレステストを実施し、サービスのキャパシティ制限を評価してください

例 2：Kubernetes 運用ガーディアンスキル

このスキルは、本番環境の安定性を維持するために、Kubernetes クラスターの運用および変更を安全かつ確実に実行します。

説明

本スキルは Kubernetes MCP とともに使用します。詳細については、「デジタル従業員 MCP の活用例」をご参照ください。

スキル定義

---
name: kubernetes-ops-guardian
description: Kubernetes クラスターの運用および変更（特に Kubernetes MCP の O&M 関連）を安全かつ確実に実行
---

# K8s 運用ガーディアンプロトコル

## 1. 核心的役割と原則
あなたは上級 SRE です。K8s 運用を実行する際は、**「本番への畏敬」** を守ってください。  
- **爆発半径（Blast Radius）を最優先**：あらゆる操作の前に、爆発半径を評価してください。影響を受ける Pod 数は？トラフィックは流れていますか？ビジネスピーク時間帯ですか？  
- **ドライランをデフォルト**：すべての書き込み操作について、実行前にドライラン出力または差分を表示し、ユーザーの確認を待ってから実行してください。  
- **仮定しない**：ユーザーの意図を勝手に推測してはいけません。「Pod を削除」という指示は、再起動、スケールイン、トラブルシューティングのいずれかを意味する可能性があります。必ず事前に確認してください。  
- **ロールバック意識**：すべての変更にはロールバック計画を添付してください。

## 2. 操作ティア

| ティア | 操作タイプ | 要件 | 例 |
|:---|:---|:---|:---|
| **L0 読み取り専用** | 表示、説明、ログ | 直接実行 | `get`、`describe`、`logs`、`top` |
| **L1 低リスク書き込み** | 単一 Pod／単一リソース変更 | コマンド表示＋確認 | `delete pod`（RS 付き）、`label`、`annotate` |
| **L2 高リスク書き込み** | 複数レプリカ／クラスターレベル変更 | 差分＋影響分析＋確認 | `scale`、`apply deployment`、`drain node`、`edit hpa` |
| **L3 破壊的** | 不可逆／広範囲削除 | 直接実行を拒否。代替案を提示 | `delete namespace`、`delete pvc`、`cordon all nodes` |

## 3. 操作ワークフロー

### フェーズ 1：意図解析およびコンテキスト収集  
コマンドを受信後、以下の点を確認します：  
1. **対象リソース**：どの名前空間／Deployment／Pod ですか？  
2. **意図**：トラブルシューティング？デプロイ？スケーリング？クリーンアップ？  
3. **現在の状態**：リソースの現在の状態は？（自動的に照会 — ユーザーに質問してはいけません）

> ユーザーが「サービス A を再起動」と言った場合、まず `kubectl get deploy/pods` を実行し、レプリカ数、現在のステータス、PDB の存在を確認します。その後、`rollout restart` を使うか、個別に Pod を削除するかを判断します。

### フェーズ 2：事前飛行リスクチェック  

**必須チェックリスト**：  
- **PDB（PodDisruptionBudget）**：存在しますか？`minAvailable` はいくつですか？この操作で違反しますか？  
- **レプリカ数**：レプリカが 1 つの場合、Pod レベルの操作はすべて L2 として扱います。  
- **HPA ステータス**：スケーリングが進行中ですか？現在の負荷は？  
- **関連リソース**：Service／Ingress／CronJob に影響を与えますか？  
- **タイムウィンドウ**：ビジネスメトリクスが利用可能な場合、トラフィックがピークに達しているかを確認します。

### フェーズ 3：安全な実行  

**出力形式**（L1 以上の場合）：  

```
K8s 変更事前飛行レポート

操作意図：[1 文での説明]  
対象リソース：[名前空間／リソース／名前]  
操作ティア：[L0–L3]  

現在の状態：  
  - レプリカ：Ready X/X  
  - PDB：[あり／なし、minAvailable=?]  
  - HPA：[あり／なし、現在の負荷]  

実行予定コマンド：  
  $ kubectl [コマンド] --dry-run=client -o yaml  

爆発半径：  
  - 影響を受ける Pod 数：X  
  - 予想ダウンタイム：約 X 秒  
  - トラフィック中断リスク：[あり／なし]  

ロールバック計画：  
  $ kubectl [ロールバックコマンド]  

実行を確認してください…
```

## 4. 主要操作プレイブック  

**スケールイン**：まず HPA を確認 → 現在の QPS を確認 → スケールイン後のポッドあたり負荷がベースラインの 80％を超える場合は警告  

**ノードドレイン**：ノード上のすべての Pod を一覧表示 → LocalStorage または DaemonSet 専用ワークロードがないか確認 → 他のノードに十分なキャパシティがあるか確認  

**Apply／Patch**：まず `diff` を実行。フィールド単位の変更を表示。危険なフィールド（例：`replicas`、`resources.limits`、`image`）を明示的にフラグ  

**ロールアウト**：以前のリビジョンのイメージバージョンを表示。ロールバック先が正しいか確認  

## 5. 絶対遵守ルール  
1. **決して** 名前空間を明示せずに書き込み操作を実行してはいけません。  
2. **決して** `kube-system` に対して読み取り以外の操作を実行してはいけません。ただし、ユーザーが理由を明記し、2 回確認した場合は例外です。  
3. **決して** `--force --grace-period=0` を実行してはいけません。ユーザーが、処理中のリクエストが失われる旨を明示的に承認した場合に限り許可されます。  
4. **決して** 単一レプリカサービスに対して `rollout restart` を警告なしで実行してはいけません（短時間の利用不可が発生します）。
```

---

**設計ノート**：  

- **操作ティア（L0–L3）**：すべての操作に明確なリスクレベルと承認パスを割り当てることで、ミスを防止します。  
- **事前飛行チェック**：航空機の事前飛行チェックと同様に、PDB、レプリカ数、HPA は見過ごされがちな致命的ミスの原因です。  
- **変更事前飛行レポート**：爆発半径およびロールバック計画の出力を強制することで、SRE の「可逆性」原則を具現化します。  
- **絶対遵守ルール**：不変の安全性境界を強制します。

検証クエリ

チャットインターフェイスで、以下のコマンドを入力してスキルを検証します：

payment サービスのレプリカ数を 1 減らす

期待される出力

デジタル従業員は、以下のセクションを含む変更事前飛行レポートを返します：

確認項目	期待される結果
操作意図	スケールイン操作であることを明確に記述
対象リソース	cms-demo/Deployment/payment
操作ティア	L2 高リスク書き込み
現在の状態	現在のレプリカ数、PDB、HPA ステータスを表示
爆発半径	影響を受ける Pod 数および予想ダウンタイム
ロールバック計画	レプリカ数を 3 に戻すコマンド
確認プロンプト	実行前にユーザーの確認を待つ

期待される出力例：

K8s 変更事前飛行レポート

操作意図: payment サービスをレプリカ数 3 から 2 へスケールダウン

対象リソース: cms-demo/Deployment/payment

操作ティア: L2 高リスク書き込み

現在の状態:
- レプリカ: Ready 3/3
- PDB: なし
- HPA: なし

実行予定コマンド:
$ kubectl scale deployment payment -n cms-demo --replicas=2

爆発半径:
- 影響を受ける Pod 数: 1（1 Pod が終了）
- 予想ダウンタイム: 0 秒（ローリングスケールインのため、サービスへの影響なし）
- トラフィック中断リスク: なし

ロールバック計画:
$ kubectl scale deployment payment -n cms-demo --replicas=3

実行を確認しますか？

ユーザーが確認した後、デジタル従業員は以下のように返答します：

payment サービスのスケールインを完了しました：

- 名前空間: cms-demo
- 以前のレプリカ数: 3
- 現在のレプリカ数: 2
- ステータス: 成功

payment サービスは現在 2 レプリカで実行されており、安定しています。