NVIDIA GPUサーバーからモニタリングデータを収集する -

NVIDIA GPUサーバーは複数のメトリックをサポートしています。 NVIDIA GPUサーバーからフルスタック監視アプリケーションにメトリクスを収集できます。これにより、Simple Log Serviceコンソールでメトリクスを表示できます。

前提条件

フルスタック監視インスタンスが作成されます。詳細は、インスタンスの作成をご参照ください。

ステップ1: NVIDIA GPUドライバーのインストール

Simple Log Serviceは、nvidia-smiコマンドを使用してGPU情報を収集します。このコマンドはGPUドライバーに含まれています。 Simple Log Serviceを使用してNVIDIA GPUサーバーからモニタリングデータを収集する前に、GPUドライバーをインストールする必要があります。詳細については、「GPUアクセラレーションコンピューティング最適化LinuxインスタンスへのGPUドライバーのインストール」をご参照ください。 ECS (Elastic Compute Service) のGPU高速化インスタンスを使用する場合、ドライバーは自動的にインストールされます。この場合、この手順をスキップできます。

ステップ2: Logtail設定の作成

Simple Log Serviceコンソール.
[ログアプリケーション] セクションで、[インテリジェントO&M] タブをクリックします。次に、[フルスタックの表示] をクリックします。
[Simple Log Serviceのフルスタックの観察可能性] ページで、管理するインスタンスをクリックします。
データインポートページ、オンにするNvidia GPUで、ミドルウェアモニタリングセクションにアクセスします。
ホストモニタリングデータのLogtail設定を初めて作成するときは、スイッチをオンにして設定ページに移動します。 Logtail設定を作成した場合は、アイコンをクリックして設定ページに移動します。
マシングループを作成します。
重要
Logtailをインストールするサーバーが、モニタリングデータを収集するNVIDIA GPUサーバーに接続できることを確認します。
[応用サーバーグループ] セクションにマシングループが表示されていることを確認し、[次へ] をクリックします。
重要
マシングループを作成した直後にマシングループを適用すると、マシングループのハートビートステータスがFAILになる可能性があります。この問題は、マシングループがSimple Log Serviceに接続されていないために発生します。この問題を解決するには、[自動再試行] をクリックします。問題が解決しない場合は、Logtailでハートビート接続が検出されない場合はどうすればよいですか?

[データソースの指定] ステップで、パラメーターを設定し、[完了] をクリックします。下表にパラメーターを示します。

パラメーター	説明
設定名	Logtail設定の名前。カスタム名を入力することができます。
クラスター名	NVIDIA GPUクラスターの名前。カスタム名を入力することができます。このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにcluster=Cluster nameタグを追加します。重要クラスター名が一意であることを確認してください。そうしないと、データの競合が発生する可能性があります。
Nvidia SMIパス	nvidia-smiがインストールされているディレクトリ。デフォルト値: /usr/bin/nvidia-smi
カスタムタグ	収集されたNVIDIA GPUモニタリングデータに追加されるカスタムタグ。タグはキーと値のペアです。このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにカスタムタグを追加します。

設定が完了すると、Simple Log Serviceは自動的にMetricstoreなどのアセットを作成します。詳細については、「アセット」をご参照ください。

次のステップ

フルスタックモニタリングアプリケーションにNVIDIA GPUモニタリングデータが収集されると、モニタリングデータ専用のダッシュボードが自動的に作成されます。ダッシュボードを使用して、モニタリングデータを分析できます。詳細については、「ダッシュボードの表示」をご参照ください。