全部產品
Search
文件中心

:接入Nvidia GPU監控資料

更新時間:Jun 30, 2024

Nvidia GPU伺服器中提供多項監控指標,您可以將Nvidia GPU伺服器中的監控指標接入到全棧可觀測應用中,進行可視化展示。

前提條件

已建立執行個體。具體操作,請參見建立執行個體

步驟一:安裝NVIDIA GPU驅動

Simple Log Service使用nvidia-smi命令採集GPU資訊,該命令包含在GPU驅動程式中,因此需要先安裝驅動程式。具體操作,請參見在GPU計算型執行個體中手動安裝Tesla驅動(Linux)。如果您使用阿里雲ECS的GPU執行個體,則GPU執行個體中已預設安裝驅動,可跳過此步驟。

步驟二:建立Logtail採集配置

  1. 登入Log Service控制台

  2. 日誌應用地區的智能營運頁簽下,單擊全棧可觀測

  3. SLS全棧可觀測頁面,單擊目標執行個體。

  4. 在左側導覽列中,單擊資料接入,然後在資料接入配置頁面,找到中介軟體監控地區的Nvidia GPU

    首次建立目標監控項的接入配置時,開啟建立開關,可進入配置頁面。如果您已建立過接入配置,則單擊建立表徵圖,可進入配置頁面。

  5. 建立機器組。

      重要

      請確保用於安裝Logtail的伺服器可串連目標Nvidia GPU伺服器。

    • 確認目標機器組已在應用機器組地區,單擊下一步

      重要

      建立機器組後立刻應用,可能因為串連未生效,導致心跳為FAIL,您可單擊自動重試。如果還未解決,請參見Logtail機器組無心跳進行排查。

    • 資料來源設定設定精靈中,配置如下參數,然後單擊完成

      參數名稱

      說明

      配置名稱

      自訂設定Logtail採集配置的名稱。

      叢集名稱

      自訂設定Nvidia GPU叢集的名稱。

      設定該參數後,Log Service會為通過該Logtail採集配置採集到的Nvidia GPU監控資料添加cluster=叢集名稱的標籤。

      重要

      請確保該叢集名稱唯一,否則可能出現資料衝突。

      nvidia-smi路徑

      安裝nvidia-smi命令的路徑,預設為/usr/bin/nvidia-smi

      自訂標籤

      為採集到的Nvidia GPU監控資料添加自訂標籤,該標籤為索引值對形式。

      設定該參數後,Simple Log Service會為通過該Logtail採集配置採集到的Nvidia GPU監控資料添加標籤。

      設定完成後,Simple Log Service將自動產生Metricstore等資產。更多資訊,請參見資產說明

    後續步驟

    接入Nvidia GPU監控資料後,全棧可觀測應用會自動產生專屬儀錶盤。您可以通過儀錶盤分析監控資料。具體操作,請參見查看儀錶盤