すべてのプロダクト
Search
ドキュメントセンター

:NVIDIA GPUサーバーからモニタリングデータを収集する

最終更新日:Feb 21, 2025

NVIDIA GPUサーバーは複数のメトリックをサポートしています。 NVIDIA GPUサーバーからフルスタック監視アプリケーションにメトリクスを収集できます。 これにより、Simple Log Serviceコンソールでメトリクスを表示できます。

前提条件

フルスタック監視インスタンスが作成されます。 詳細は、インスタンスの作成をご参照ください。

ステップ1: NVIDIA GPUドライバーのインストール

Simple Log Serviceは、nvidia-smiコマンドを使用してGPU情報を収集します。 このコマンドはGPUドライバーに含まれています。 Simple Log Serviceを使用してNVIDIA GPUサーバーからモニタリングデータを収集する前に、GPUドライバーをインストールする必要があります。 詳細については、「GPUアクセラレーションコンピューティング最適化LinuxインスタンスへのGPUドライバーのインストール」をご参照ください。 ECS (Elastic Compute Service) のGPU高速化インスタンスを使用する場合、ドライバーは自動的にインストールされます。 この場合、この手順をスキップできます。

ステップ2: Logtail設定の作成

  1. Simple Log Serviceコンソール.

  2. [ログアプリケーション] セクションで、[インテリジェントO&M] タブをクリックします。 次に、[フルスタックの表示] をクリックします。

  3. [Simple Log Serviceのフルスタックの観察可能性] ページで、管理するインスタンスをクリックします。

  4. データインポートページ、オンにするNvidia GPUで、ミドルウェアモニタリングセクションにアクセスします。

    ホストモニタリングデータのLogtail設定を初めて作成するときは、スイッチをオンにして設定ページに移動します。 Logtail設定を作成した場合は、アイコンをクリックして创建設定ページに移動します。

  5. マシングループを作成します。

      重要

      Logtailをインストールするサーバーが、モニタリングデータを収集するNVIDIA GPUサーバーに接続できることを確認します。

    • [応用サーバーグループ] セクションにマシングループが表示されていることを確認し、[次へ] をクリックします。

      重要

      マシングループを作成した直後にマシングループを適用すると、マシングループのハートビートステータスがFAILになる可能性があります。 この問題は、マシングループがSimple Log Serviceに接続されていないために発生します。 この問題を解決するには、[自動再試行] をクリックします。 問題が解決しない場合は、Logtailでハートビート接続が検出されない場合はどうすればよいですか?

    • [データソースの指定] ステップで、パラメーターを設定し、[完了] をクリックします。 下表にパラメーターを示します。

      パラメーター

      説明

      設定名

      Logtail設定の名前。 カスタム名を入力することができます。

      クラスター名

      NVIDIA GPUクラスターの名前。 カスタム名を入力することができます。

      このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにcluster=Cluster nameタグを追加します。

      重要

      クラスター名が一意であることを確認してください。 そうしないと、データの競合が発生する可能性があります。

      Nvidia SMIパス

      nvidia-smiがインストールされているディレクトリ。 デフォルト値: /usr/bin/nvidia-smi

      カスタムタグ

      収集されたNVIDIA GPUモニタリングデータに追加されるカスタムタグ。 タグはキーと値のペアです。

      このパラメーターを設定すると、Simple Log Serviceは、Logtail設定を使用して収集されたNVIDIA GPUモニタリングデータにカスタムタグを追加します。

      設定が完了すると、Simple Log Serviceは自動的にMetricstoreなどのアセットを作成します。 詳細については、「アセット」をご参照ください。

    次のステップ

    フルスタックモニタリングアプリケーションにNVIDIA GPUモニタリングデータが収集されると、モニタリングデータ専用のダッシュボードが自動的に作成されます。 ダッシュボードを使用して、モニタリングデータを分析できます。 詳細については、「ダッシュボードの表示」をご参照ください。