全部產品
Search
文件中心

Platform For AI:使用CNP效能評測

更新時間:Mar 13, 2025

CNP(Cloud Native Application Performance Optimizer),一站式雲原生應用效能評測、分析和最佳化的平台型產品,致力於提升雲上應用效能,自動化高效評測靈駿叢集訓練效能,提供效能最佳化建議。本文為您介紹如何使用CNP進行效能評測。

CNP平台入口

  1. 登入靈駿控制台

  2. 在左側導覽列,點擊效能評測 > CNP效能評測平台。

  3. 您可以在CNP平台中發起效能評測查看評測結果

  4. 在頁面左下角,點擊返回可以快速回到靈駿控制台。

image.png

image.png

發起評測

第一步:選擇叢集

在歡迎頁面單擊開始評測或在效能評測頁單擊發起評測,進入評測流程第一步:選擇叢集。

image.png

  • 叢集名稱:從您當前所擁有的叢集中,選擇執行評測時要使用的一個叢集。

  • 授權DLC訪問資訊:填寫完成後,單擊下方測試連通性,如果成功訪問則會返回連通成功,否則會給出失敗原因,常見的失敗原因如下所示:

    失敗原因枚舉

    建議操作

    連線逾時

    開通訪問CNP的白名單後再次嘗試

    資訊填寫有誤

    AccessID、Accesskey、工作空間、Endpoint至少有一個資訊填寫錯誤,檢查資訊後再次嘗試

    擷取STS token失敗(D3001)

    建立SLR失敗(D3002)

    建立Arms執行個體失敗(D3003)

    檢查Arms服務失敗(D3004)

    開通ARMS服務

    擷取Arms資訊失敗(D3005)

    無許可權建立SLR(D3006)

    授權SLR

連通性測試通過後,點擊下一步,進入第二步:選擇測試方案。

第二步:選擇測試方案

使用模板

系統預設提供兩套測試方案模板,您可根據實際業務情境選擇其中之一。

image.png

方案

包含的測試內容

測試的叢集規模

方案A:大語言類情境通用方案

  • 單卡測試:MatMul(矩陣運算元)

  • 單機測試:Bert-base

  • AI模型測試:LLaMA-7B

  • 單卡測試:預設使用叢集最大規模

  • 單機測試:預設使用叢集最大規模

  • AI模型測試:預設在8卡、16卡、32卡、64卡、128卡、256卡、512卡上分別建立評測任務,根據您的叢集最大規模進行攔截(假設您的叢集最大規模為100卡,則僅建立8卡、16卡、32卡、64卡的評測任務)

方案B:Image Recognition類情境通用方案

  • 單卡測試:MatMul(矩陣運算元)

  • 單機測試:Bert-base

  • AI模型測試:Swin-Transformer、Stable Diffusion

  • 單卡測試:預設使用叢集最大規模

  • 單機測試:預設使用叢集最大規模

  • AI模型測試:預設在8卡、16卡、32卡、64卡上分別建立評測任務,根據您的叢集最大規模進行攔截(假設您的叢集最大規模為16卡,則僅建立8卡、16卡的評測任務)

自訂方案

若系統提供的模板均無法滿足測試需求,則可以選擇自訂測試方案。

  1. 單卡測試:節點數支援自訂,測試案例預設MatMul。

  2. 單機測試:節點數支援自訂,測試案例預設Bert-base。

  3. AI模型測試:AI模型以及評測的叢集卡數支援自訂選擇。

說明
  • 當前已支援的模型包括:LLaMA-7B、Stable-Diffusion、Swin-Transformer、Bert-base、UNet。

  • 預設參數配置均採用基準配置,具體配置可在頁面中查看。

image.png

評測時間預估

選擇測試方案後,會根據方案中包含的測試內容,自動估算評測預計花費的時間。注意,此時間是根據您第一步所選叢集的最大規模進行的估算結果,若您可用叢集未達到最大規模,則實際評測時間將比預估時間耗時更長。

一鍵開始評測

完成第一步和第二步後,點擊一鍵開始評測,即可發起評測,等待評測結果。

查看評測進度及結果

建立完成測試計劃後,在評測計劃列表頁可即時查看執行狀態和執行進度。點擊詳情,可進入評測計劃詳情,進一步查看每個環節的評測進度。

image.png

單卡測試

  • 測試通過

    當測試的卡未出現疑似問題卡且未出現warning卡時,判定為單卡測試結果通過

    說明
    • 疑似問題卡:表示該卡的任務運行失敗,卡疑似有問題;

    • warning卡:表示該卡的TFLOPS變化有超過5%的迭代數在正常閾值範圍之外

    • 正常閾值的計算邏輯:取每個迭代所有卡的TFLOPS中位元作為基準,將基準上下3%與4*sigma(4*標準差) 進行比較,取值較大者作為正常閾值範圍。

    image.png

  • 測試結果異常

    當測試的卡出現疑似問題卡或出現warning卡時,判定為單卡測試結果異常

    在評測工作清單中,點擊加號表徵圖可以展開疑似問題卡或warning卡查看明細,您可將異常節點上報給營運團隊進一步排查。點擊評測詳情,可查看此任務的詳細評測結果。

    image.png

單機測試進度

  • 測試通過

    當測試的節點未出現疑似問題節點且未出現warning節點時,判定為單機測試結果通過

    說明
    • 疑似問題節點:表示該節點下的DLC任務運行失敗,節點疑似有問題;

    • warning卡:表示該節點的輸送量變化有超過5%的迭代數在正常閾值範圍之外

    • 正常閾值的計算邏輯:取每個迭代所有節點的吞吐中位元作為基準,將基準上下3%與4*sigma(4*標準差) 進行比較,取值較大者作為正常閾值範圍。

    image.png

  • 測試結果異常

    當測試的節點出現疑似問題節點或出現warning節點時,判定為單機測試結果異常。

    在評測工作清單中,點擊加號表徵圖可以展開疑似問題節點或warning節點查看明細,將異常節點上報給營運團隊進一步排查。點擊評測詳情,可查看此任務的詳細評測結果。

    image.png

AI模型測試

  • 測試進度

    待執行:若所有任務都為待執行狀態

    已完成:若所有任務均運行成功或運行失敗或已停止

    已停止:若所有任務均為已停止狀態

    執行中:部分任務已完成、部分任務待執行或執行中

    image.png

  • 測試工作列表

    可查看當前測試計劃在AI模型步驟中包含的所有任務,運行中的任務若想終止可以點擊停止操作,所有任務均可刪除。

    警告

    已刪除和運行失敗的任務資料不會統計在效能看板dashboard中,請謹慎操作。

查看測試結果效能看板

操作入口

執行狀態為已完成的測試計劃,可以查看效能看板,效能看板中包含的資料為當前測試計劃中-AI模型測試環節運行成功的評測任務。

image.png

看板內容

Scalability of Test Model

image.png

按模型顯示每個模型在當前測試計劃中所評測的卡數下,輸送量隨卡數的變化趨勢,體現模型在叢集上的效能擴充性(不同模型間結果不進行對比)。

計算公式:Scalability Score = log₂(模型吞吐 / 模型最小評測規格吞吐)

說明

樣本:以GPT3-175B模型為例(MOCK資料、僅用作說明)

GPUs

輸送量

Scalability Score

理論Scalability Score

64

10

128

18

log₂(18 / 10)

log₂ 2

256

35

log₂(35 / 10)

log₂ 4

512

69

log₂(69 / 10)

log₂ 8

1024

137

log₂(137 / 10)

log₂ 16

註:Scalability Score越接近理論Scalability Score值,效能拓展性越好

評測結果明細

按模型顯示每個模型在當前測試計劃中所評測的卡數下,throughput指標(輸送量)、MFU指標和iteration latency指標。縱座標表示卡數,橫座標表示指標值。

image.png