全部產品
Search
文件中心

Platform For AI:建立及管理資料集加速槽

更新時間:Apr 09, 2025

在使用資料集加速器(DatasetAccelerator)前,您需要建立資料集加速槽來綁定資料來源地址。系統會根據資料來源類型、資料大小、訓練的架構以及模型等因素,對關聯的資料集進行預先處理,以提高訪問速度。本文為您介紹如何建立和管理資料集加速槽。

前提條件

已建立資料集加速執行個體,具體操作,請參見建立及管理資料集加速執行個體

建立資料集加速槽

  1. 登入PAI控制台,在左側導覽列,選擇AI加速 > 資料集加速器

  2. 進入建立加速槽配置面板。

    • 方式一:在加速槽頁簽,單擊建立加速槽

    • 方式二:在加速執行個體詳情頁面建立加速槽。

      說明

      使用該方式建立加速槽時,所屬執行個體為當前加速執行個體,不支援選擇其他加速執行個體。

      1. 加速執行個體頁簽中,單擊目標執行個體名稱,進入加速執行個體詳情頁面。

      2. 資料集加速槽頁簽中,單擊建立加速槽

  3. 建立加速槽配置面板,配置以下關鍵參數。

    參數

    描述

    所屬執行個體

    選擇已建立的加速執行個體。

    綁定雲產品

    選擇與加速執行個體配置的資料來源類型一致的雲產品。取值如下:

    阿里雲Object Storage Service

    • 讀寫屬性:設定OSS的讀寫權限。支援唯讀可讀寫

    • 選定OSS路徑:選擇資料集在OSS中的儲存目錄。

    阿里雲檔案儲存體(通用型NAS)&阿里雲檔案儲存體(極速型NAS)

    • 選擇檔案系統:選擇已建立的檔案系統的ID。

    • 檔案系統掛載點:選擇掛載點,通過掛載點訪問檔案系統。

    • 檔案系統路徑:選擇NAS中已有的儲存路徑。預設為/

    最大容量

    配置資料集加速槽容量,需大於等於資料集容量。您可以參考需要加速的具體資料集容量來配置。

    掛載點

    綁定雲產品選擇阿里雲Object Storage Service時,支援配置該參數。

    選擇或建立掛載點,將資料集加速器掛載到訓練叢集。在訓練叢集中進行模型訓練時,訓練任務可以通過掛載點來訪問資料集加速槽,進而讀取加速槽關聯的資料集,提高了資料集訪問效率。

    支援以下兩種配置方法:

    • 選擇掛載點:選擇已有的掛載點。

    • 建立掛載點:配置以下參數,建立新的掛載點。

      • 掛載點類型:僅支援VPC。

      • VPC網路:選擇已建立的專用網路。如果沒有可用的專用網路,您也可以單擊建立專用網路進行建立。

      • 交換器:選擇已建立的交換器。如果沒有可用的交換器,您也可以單擊建立交換器進行建立。

    說明
    • 資料集加速器只支援專用網路類型的掛載點。

    • 一個專用網路類型掛載點,可以被同VPC下不同交換器下的訓練叢集使用。

    • 添加掛載點時,檔案系統會佔用一個IP地址,建議您選擇內網IP較多的交換器。

    • 掛載點只支援被同一VPC網路的訓練叢集掛載。

    啟動自動回收

    開啟啟動自動回收開關,配置資料集加速槽的已耗用時間或停止時間。

  4. 單擊提交

    系統將初始化加速槽執行個體,待狀態變為運行中時,即可使用。

管理資料集加速槽

支援在加速槽頁簽或加速執行個體詳情頁面管理資料集加速槽,兩個頁面的管理操作相同。image

  • 單擊加速槽名稱,進入詳情頁面,查看基本資料

  • 將滑鼠移至上方在②位置,查看資料集儲存類型。

  • 支援停止或刪除不再使用的加速槽,或複製一個新的加速槽。也可以單擊自動回收配置已耗用時間或自動停止時間。

管理掛載點

單擊加速槽名稱進入加速槽詳情頁面,在該頁面管理掛載點。image.png

  • 查看配置資訊:將滑鼠移至上方在掛載點名稱上,可以查看掛載點的配置資訊。

  • 查看部署配置:單擊掛載點名稱,會展示安裝資料集加速器用戶端的部署配置。

  • 下載部署配置:在部署配置面板,單擊下載按鈕,下載YAML檔案,用於在訓練叢集中配置資料集加速器。

    image

後續步驟

您可以啟用資料集的加速功能,以便在建立DSW執行個體或提交DLC任務時使用,從而加快對資料集的訪問速度。詳情請參見在PAI平台使用資料集加速器