Container Intelligence Service (CIS) は、Container Compute Service (ACS) の Pod 診断機能を提供し、Pod の診断を支援します。このトピックでは、Pod の診断項目と Pod の問題を解決する方法について説明します。
CIS は、専門家の経験に基づいて診断システムを開発し、大量のデータに基づいて AI 支援診断モデルをトレーニングします。Pod 診断機能は、エキスパートモードと AI モードの 2 つの診断モードを提供し、問題の根本原因の特定を支援します。Pod 診断には、診断項目と根本原因が含まれます。
診断項目: Pod とクラスタコンポーネントの診断が含まれます。
根本原因: 問題の根本原因を特定し、問題の解決方法に関する提案を提供します。Pod 診断機能は、クラスタに関する情報を収集し、異常を特定してから、詳細な診断を実行します。
Pod 診断機能を使用すると、システムはクラスタ内でデータ収集プログラムを実行して診断結果を収集します。収集される情報には、システムバージョン、ワークロード、Docker、kubelet のステータス、およびシステムログの主要なエラー情報が含まれます。データ収集プログラムは、ビジネス情報や機密データを収集しません。
シナリオ
次の表に、Pod 診断と AI 支援診断のシナリオを示します。
カテゴリ | シナリオ |
Pod 診断 | Pod がスケジューラによって処理されていません。 |
Pod がスケジューリングの制約の要件を満たしていないため、スケジューリングできません。 | |
Pod はスケジュールされていますが、kubelet によって処理されていません。 | |
Pod はボリュームが Ready 状態になるのを待機しています。 | |
Pod が削除されました。 | |
Pod のサンドボックスコンテナの作成に失敗しました。 | |
Pod が Terminating 状態のままです。 | |
Pod のコンテナで Out-of-memory (OOM) エラーが発生しました。 | |
Pod のコンテナが異常に終了しました。 | |
Pod のコンテナが CrashLoopBackOff 状態のままです。 | |
Pod のコンテナが準備できていません。 | |
Pod がコンテナイメージをプルできませんでした。 | |
Pod がコンテナイメージをプルするときにタイムアウトエラーが発生しました。 | |
AI 支援診断 | Pod のステータスが異常です。 |
Pod で OOM エラーが発生しました。 | |
Pod のコンテナが異常に終了しました。 | |
Pod の ConfigMap または Secret の構成が無効です。 | |
Pod がヘルスチェックに合格しませんでした。 | |
Pod の永続ボリューム要求 (PVC) の構成が無効です。 | |
Pod がコンテナイメージをプルするときにエラーが発生しました。 |
手順
クラスタ診断機能は、クラスタに関する情報を収集し、異常を特定してから、詳細な診断を実行します。エキスパートモードと AI モードは、問題の根本原因の特定を支援するために使用されます。診断結果は、異常の特定、データ収集、診断項目の確認、および根本原因分析の手順を経て生成されます。

異常の特定: Pod のステータスやクラスタのイベントストリームなどの基本データを収集し、収集したデータに基づいて異常を分析します。
データ収集: 異常の特定の結果に基づいて、コンテキスト関連のデータを収集および診断します。
診断項目の確認: 収集したデータに基づいて、主要なメトリックが正常かどうかを確認します。
根本原因分析: 収集したデータと診断項目の確認結果に基づいて、問題の根本原因を分析します。
診断結果
診断結果には、根本原因分析の結果と診断項目確認の結果が含まれます。根本原因分析の結果には、検出された異常、根本原因、修正の提案が含まれます。診断項目確認の結果には、各診断項目の確認結果が含まれます。診断項目確認は、根本原因分析では特定できない原因を特定するために使用されます。
Pod 診断項目
カテゴリ | 説明 |
Pod のステータスやイメージのプルなど、一般的な Pod の問題を診断します。 | |
API サーバーと DNS サービスの可用性など、一般的なクラスタの問題を診断します。 |
Pod
診断項目 | 説明 | 解決策 |
コンテナの再起動回数 | Pod 内のコンテナが再起動した回数を示します。 | Pod のステータスとログを確認します。詳細については、「Pod のトラブルシューティング」をご参照ください。 |
コンテナイメージのダウンロード失敗 | 現在の Pod のノードにある他の Pod がコンテナイメージのダウンロードに失敗したかどうかを確認します。 | Pod のステータスとログを確認します。詳細については、「Pod のトラブルシューティング」をご参照ください。 |
Pod スケジューリング | Pod がスケジュールされているかどうかを確認します。 | Pod のステータスとログを確認します。詳細については、「Pod のトラブルシューティング」をご参照ください。 |
ClusterComponent
診断項目 | 説明 | 解決策 |
API サービスの可用性 | クラスタの API サービスが使用可能かどうかを確認します。 |
|
DNS サービスのエンドポイント | CoreDNS エンドポイントの数を確認します。 | CoreDNS Pod のステータスとログを確認します。 |
CoreDNS Pod のクラスタ IP アドレス | CoreDNS Pod にクラスタ IP アドレスが割り当てられているかどうかを確認します。CoreDNS Pod にクラスタ IP アドレスが割り当てられていない場合、サービス中断が発生する可能性があります。 | CoreDNS Pod のステータスとログを確認します。 |