Nvidia GPU伺服器中提供多項監控指標,您可以將Nvidia GPU伺服器中的監控指標接入到全棧可觀測應用中,進行可視化展示。
前提條件
已建立執行個體。具體操作,請參見建立執行個體。
步驟一:安裝NVIDIA GPU驅動
Simple Log Service使用nvidia-smi命令採集GPU資訊,該命令包含在GPU驅動程式中,因此需要先安裝驅動程式。具體操作,請參見在GPU計算型執行個體中手動安裝Tesla驅動(Linux)。如果您使用阿里雲ECS的GPU執行個體,則GPU執行個體中已預設安裝驅動,可跳過此步驟。
步驟二:建立Logtail採集配置
在日誌應用地區的智能營運頁簽下,單擊全棧可觀測。
在SLS全棧可觀測頁面,單擊目標執行個體。
在左側導覽列中,單擊資料接入,然後在資料接入配置頁面,找到中介軟體監控地區的Nvidia GPU。
首次建立目標監控項的接入配置時,開啟建立開關,可進入配置頁面。如果您已建立過接入配置,則單擊
表徵圖,可進入配置頁面。建立機器組。
重要請確保用於安裝Logtail的伺服器可串連目標Nvidia GPU伺服器。
確認目標機器組已在應用機器組地區,單擊下一步。
重要建立機器組後立刻應用,可能因為串連未生效,導致心跳為FAIL,您可單擊自動重試。如果還未解決,請參見Logtail機器組無心跳進行排查。
在資料來源設定設定精靈中,配置如下參數,然後單擊完成。
參數名稱
說明
配置名稱
自訂設定Logtail採集配置的名稱。
叢集名稱
自訂設定Nvidia GPU叢集的名稱。
設定該參數後,Log Service會為通過該Logtail採集配置採集到的Nvidia GPU監控資料添加cluster=叢集名稱的標籤。
重要請確保該叢集名稱唯一,否則可能出現資料衝突。
nvidia-smi路徑
安裝nvidia-smi命令的路徑,預設為/usr/bin/nvidia-smi。
自訂標籤
為採集到的Nvidia GPU監控資料添加自訂標籤,該標籤為索引值對形式。
設定該參數後,Simple Log Service會為通過該Logtail採集配置採集到的Nvidia GPU監控資料添加標籤。
設定完成後,Simple Log Service將自動產生Metricstore等資產。更多資訊,請參見資產說明。
後續步驟
接入Nvidia GPU監控資料後,全棧可觀測應用會自動產生專屬儀錶盤。您可以通過儀錶盤分析監控資料。具體操作,請參見查看儀錶盤。