AI ノードのリソース監視 - Hologres - Alibaba Cloud ドキュメントセンター

このトピックでは、Hologres の AI ノード (GPU) と AI モデルの監視メトリックについて説明します。これらのメトリックを使用して、リソース使用量、呼び出し回数、レイテンシーを表示し、アラートを設定できます。

AI メトリックの概要

AI リソースメトリック：AI リソースを購入した後、これらのメトリックを使用して、AI ノード全体の使用量を監視できます。
AI モデルメトリック：これらのメトリックを使用して、Hologres にデプロイされている各モデルのリソース使用量を監視できます。これには、モデルレベルの呼び出し統計と、割り当てられた AI リソースの使用量が含まれます。これにより、モデルが効率的に使用されているかどうかを判断できます。モデルのデプロイメントの詳細については、「AI モデルとデプロイメント」をご参照ください。

カテゴリ	メトリック	説明	サポートされるインスタンスタイプ	注意事項
AI リソース	AI リソースグループの CPU 使用量	AI ノードの合計 CPU 使用量	汎用コンピュートグループタイププライマリ/スタンバイインスタンス	データは、AI リソースを購入して使用を開始した後にのみ表示されます。購入の詳細については、「AI リソースの料金と購入」をご参照ください。
	AI リソースグループのメモリ使用量	AI ノードの合計メモリ使用量
	AI リソースグループの GPU 使用量	AI ノードの合計 GPU 使用量
AI モデル	AI モデルサービスの CPU 使用量	モデルごとの CPU 使用量		データは、モデルをデプロイし、AI 関数を使用して呼び出した後にのみ表示されます。デプロイメントの詳細については、「AI モデルとデプロイメント」をご参照ください。呼び出しの詳細については、「AI 関数」をご参照ください。
	AI モデルサービスのメモリ使用量	モデルごとのメモリ使用量
	AI モデルサービスの GPU 使用量	モデルごとの GPU 使用量
	AI モデルサービスの呼び出し QPS	AI 関数によるモデル呼び出しの QPS
	AI モデルサービスの平均レスポンスタイム	AI 関数によるモデル呼び出しの平均レイテンシー
	AI モデルサービスの最大レスポンスタイム	AI 関数によるモデル呼び出しの最大レイテンシー
	AI モデルサービスの成功呼び出し QPS	AI 関数によるモデル呼び出しの成功 QPS
	AI モデルサービスの失敗呼び出し QPS	AI 関数によるモデル呼び出しの失敗 QPS
	AI モデルサービスの上りトラフィック	AI 関数によるモデル呼び出しの上りトラフィック
	AI モデルサービス送信トラフィック	AI 関数によるモデル呼び出しの下りトラフィック