NVIDIA GPUサーバーは複数のメトリックをサポートしています。 NVIDIA GPUサーバーからフルスタック監視アプリケーションにメトリクスを収集できます。 これにより、Simple Log Serviceコンソールでメトリクスを表示できます。
前提条件
フルスタック監視インスタンスが作成されます。 詳細は、インスタンスの作成をご参照ください。
ステップ1: NVIDIA GPUドライバーのインストール
Simple Log Serviceは、nvidia-smiコマンドを使用してGPU情報を収集します。 このコマンドはGPUドライバーに含まれています。 Simple Log Serviceを使用してNVIDIA GPUサーバーからモニタリングデータを収集する前に、GPUドライバーをインストールする必要があります。 詳細については、「GPUアクセラレーションコンピューティング最適化LinuxインスタンスへのGPUドライバーのインストール」をご参照ください。 ECS (Elastic Compute Service) のGPU高速化インスタンスを使用する場合、ドライバーは自動的にインストールされます。 この場合、この手順をスキップできます。
ステップ2: Logtail設定の作成
[ログアプリケーション] セクションで、[インテリジェントO&M] タブをクリックします。 次に、[フルスタックの表示] をクリックします。
[Simple Log Serviceのフルスタックの観察可能性] ページで、管理するインスタンスをクリックします。
データインポートページ、オンにするNvidia GPUで、ミドルウェアモニタリングセクションにアクセスします。
ホストモニタリングデータのLogtail設定を初めて作成するときは、スイッチをオンにして設定ページに移動します。 Logtail設定を作成した場合は、アイコンをクリックして
設定ページに移動します。 マシングループを作成します。
重要Logtailをインストールするサーバーが、モニタリングデータを収集するNVIDIA GPUサーバーに接続できることを確認します。
[応用サーバーグループ] セクションにマシングループが表示されていることを確認し、[次へ] をクリックします。
重要マシングループを作成した直後にマシングループを適用すると、マシングループのハートビートステータスがFAILになる可能性があります。 この問題は、マシングループがSimple Log Serviceに接続されていないために発生します。 この問題を解決するには、[自動再試行] をクリックします。 問題が解決しない場合は、Logtailでハートビート接続が検出されない場合はどうすればよいですか?
[データソースの指定] ステップで、パラメーターを設定し、[完了] をクリックします。 下表にパラメーターを示します。
パラメーター
説明
設定名
Logtail設定の名前。 カスタム名を入力することができます。
クラスター名
NVIDIA GPUクラスターの名前。 カスタム名を入力することができます。
このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにcluster=Cluster nameタグを追加します。
重要クラスター名が一意であることを確認してください。 そうしないと、データの競合が発生する可能性があります。
Nvidia SMIパス
nvidia-smiがインストールされているディレクトリ。 デフォルト値: /usr/bin/nvidia-smi
カスタムタグ
収集されたNVIDIA GPUモニタリングデータに追加されるカスタムタグ。 タグはキーと値のペアです。
このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにカスタムタグを追加します。
設定が完了すると、Simple Log Serviceは自動的にMetricstoreなどのアセットを作成します。 詳細については、「アセット」をご参照ください。
次のステップ
フルスタックモニタリングアプリケーションにNVIDIA GPUモニタリングデータが収集されると、モニタリングデータ専用のダッシュボードが自動的に作成されます。 ダッシュボードを使用して、モニタリングデータを分析できます。 詳細については、「ダッシュボードの表示」をご参照ください。