全部產品
Search
文件中心

Platform For AI:模型部署及訓練

更新時間:Jul 30, 2025

Model Gallery 提供了多種預訓練模型,協助您快速上手並利用PAI進行模型的訓練和部署。本文將詳細介紹如何在 Model Gallery 中尋找符合您業務需求的模型,以及如何進行模型的部署、調試和微調訓練。

前提條件

進行微調或增量訓練前,需建立OSS Bucket儲存空間,詳情請參見控制台建立儲存空間

使用費用

Model Gallery免費,但模型部署和訓練會收取EAS和DLC費用,詳情請參見模型線上服務(EAS)計費說明分布式訓練(DLC)計費說明

尋找適合業務的模型

Model Gallery提供了豐富多樣的模型協助您解決實際應用情境中的業務問題。您可以參考以下內容來協助您快速找到最適合自己業務的模型:

  • 根據需要的領域及任務尋找模型。

  • 大多數模型會標註該模型所使用的預訓練資料集。預訓練資料集和實際使用情境越接近,直接部署和微調訓練效果就會越好。您可以在模型詳情頁面擷取更多關於該模型預訓練資料集的資訊。

  • 一般來說,參數量越大的模型效果會更好,但相應的模型服務運行時產生的費用和微調訓練所需要的資料量都會更多。

尋找模型的具體操作步驟如下:

  1. 進入Model Gallery頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在左側導覽列單擊快速開始 > Model Gallery ,進入Model Gallery頁面。

  2. 尋找適合業務的模型。

    image

    後續,您可以直接部署選擇好的模型,並進行線上調試,驗證模型推理效果。具體操作,請參見部署和調試模型

部署和調試模型

以Llama-3.1-8B-Instruct模型為例,尋找到合適的模型後,單擊模型卡片進入模型詳情頁面,進行部署和調試操作。

直接部署模型服務

  1. 在模型詳情頁面,單擊部署

    image

  2. (可選)配置模型服務資訊和資源部署資訊。

    Model Gallery已經預先根據模型特點預置了每個模型部署相關的基本資料資源資訊。您可以使用預設配置,也可以根據業務需要對部署的相關配置變更。

    參數

    描述

    服務名稱

    基本資料地區,預設已佈建服務名稱,您也可以參考介面提示更改服務名稱,同地區內唯一。

    資源類型

    資源資訊地區,可選擇使用公用資源、專有資源或資源配額。

    部署資源

    資源資訊地區,預設已配置資源規格。您可以使用預設配置,也可以選擇其他資源規格(建議所選規格的算力要高於預設配置,否則機器效能可能不夠)。

    image

  3. 在模型部署詳情頁面下方,單擊部署,並在彈出的計費提醒對話方塊中,單擊確定

    頁面將自動跳轉到服務詳情頁面。在此頁面,您可以查看服務的基本資料資源資訊。當狀態變為運行中時,即表示服務部署成功。

線上調試模型服務

服務詳情頁面,切換到線上調式頁簽,並在Body下的編輯框中輸入請求資料,單擊發送請求,根據下方輸出的請求結果來驗證模型服務推理效果。

image

您可以參照模型文檔中的資料輸入格式來構造請求資料。部分模型(例如:Stable Diffusion V1.5模型)支援在服務詳情頁面右上方單擊查看WEB應用,來啟動WebUI應用,讓您更方便的在WebUI頁面,對模型進行推理驗證。

如果預訓練資料集和您的實際業務情境不完全符合,在實際應用中模型效果可能會和理論上存在不同程度的誤差。如果模型預測結果不滿足您的業務需求,您可以對模型進行微調訓練,擷取一個更滿足您具體業務應用情境需要的模型,詳情請參見訓練模型

訓練模型

使用您自己的資料集對PAI平台中預置的模型進行微調訓練,以Llama-3.1-8B-Instruct模型為例,具體操作步驟如下。

  1. 在模型詳情頁面,單擊訓練

    image

  2. 在微調訓練詳情頁面,配置以下參數。

    說明

    不同的模型支援配置的參數可能不同,請根據模型的實際情況進行配置。

    參數類型

    參數

    描述

    訓練方式

    SFT 監督微調

    訓練方式支援:

    • 監督微調:通過指定大模型的輸入輸出對大模型的參數進行微調。

    • 直接偏好最佳化:直接最佳化語言模型以符合人類偏好,隱含了與RLHF演算法相同的最佳化目標。

    兩種訓練方式均支援通過全參微調、LoRA、QLoRA進行微調。

    DPO 直接偏好最佳化

    訓練設定

    任務名稱

    預設已配置任務名稱,您也可以參考介面提示更改任務名稱。

    最大運行時間長度

    設定任務啟動並執行最長時間長度。配置完成後,後續任務運行超過最長時間長度後即返回,任務停止運行。

    如果保持預設配置,任務運行時間長度不受該參數限制。

    資料集配置

    訓練資料集

    Model Gallery提供了預設的訓練資料,如果您不使用預設資料集,需要按照模型文檔中的訓練資料格式準備好訓練資料,然後參考以下兩種方式上傳訓練資料。

    • OSS檔案或目錄

      單擊image,選擇資料集所在的OSS路徑。在選擇OSS檔案對話方塊中,您可以選擇已有的資料檔案,也可以按照以下操作步驟上傳本機資料集檔案。

      1. 單擊上傳檔案

      2. 單擊查看本地檔案拖拽上傳檔案,根據提示上傳本機資料檔案。

    • 自訂資料集

      您可以選擇使用OSS等雲端儲存上的資料集。單擊image選擇已建立的資料集。如果沒有資料集,可參考建立及管理資料集文檔進行建立。

    驗證資料集

    單擊添加驗證資料集進行添加。驗證資料集配置方法同訓練資料集

    輸出配置

    選擇輸出的雲端儲存路徑,用來儲存訓練產生的模型、TensorBoard記錄檔。

    說明

    如果您在工作空間詳情頁面配置了工作空間預設OSS儲存路徑,這裡會預設填充該路徑,無需手動設定。如何配置工作空間儲存路徑,請參見管理工作空間

    計算資源配置

    資源類型

    支援通用計算靈駿智算

    資源來源

    • 公用資源

      • 計費模式:隨用隨付。

      • 適用情境:公用資源可能會遇到排隊延時,因此,建議在任務量相對較少,任務時效性要求不高的情境下使用。

    • 資源配額:包括通用計算資源或靈駿智算資源

      • 計費模式:訂用帳戶。

      • 適用情境:適用在任務量相對較多,且需要高保障的執行任務的情境。

    • 競價資源

      • 計費模式:隨用隨付。

      • 適用情境:如果您希望降低資源成本,可使用競價資源,其通常在價格上有一定幅度的折扣。

      • 使用限制:不承諾穩定可用,有可能出現無法立即搶佔或被回收的情況,更多資訊請參見使用競價任務

    超參數配置

    不同的模型支援不同的超參數配置。您可以使用預設值,也可以根據您的業務需求修改參數配置。

  3. 單擊訓練

    頁面自動跳轉到任務詳情頁面。您可以查看訓練任務的基本資料、即時狀態、任務日誌和任務監控資訊等。

    說明

    訓練好的模型會自動註冊到AI資產-模型管理中,您可以查看或部署對應的模型,詳情請參見註冊及管理模型

相關文檔

Model Gallery常見問題