全部產品
Search
文件中心

Cloud Parallel File Storage:資料流動任務

更新時間:Dec 10, 2024

CPFS智算版提供批式任務和流式任務兩種任務類型,您可以根據業務情境選擇適合的任務類型。

批式任務

批式任務是將一個目錄的所有檔案一次性匯入到另一個目錄。適用於智算訓練前資料集的預先載入。

流式任務

流式任務是一個目錄到另一個目錄的單個檔案粒度的持續流動。適用於計算任務訓練中模型多個Checkpoint檔案持久性的寫回與載入情境。

說明

任務說明

按任務對資料的操作,可分為匯入(Import)、匯出(Export)、流式匯入(StreamImport)、流式匯出(StreamExport)四種類型。

類型

說明

匯入(Import)

將源端儲存的資料一次性匯入CPFS智算版檔案系統。

  • 匯入類型:支援匯入檔案的資料(MetaAndData)。

  • 匯入路徑:是檔案OSS Bucket中的路徑。資料流動任務按檔案在OSS Bucket中的路徑匯入到CPFS智算版檔案系統中。

匯出(Export)

將CPFS智算版檔案系統內指定的資料一次性匯出到OSS Bucket中。

匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。

警告
  • CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。

  • 在資料流動的使用過程中,不能暫停源端OSS Bucket的版本控制,否則執行匯出任務時會報錯。更多資訊,請參見版本控制

流式匯入(StreamImport)

將源端儲存指定的資料按單個檔案粒度的子任務形式匯入到CPFS智算版檔案系統。僅支援通過OpenAPI進行操作。

  • 匯入類型:支援匯入檔案的資料(MetaAndData)。

  • 匯入路徑:是檔案OSS Bucket中的路徑。資料流動任務按檔案在OSS Bucket中的路徑匯入到CPFS智算版檔案系統中。

流式匯出(StreamExport)

將CPFS智算版檔案系統內指定的資料按單個檔案粒度的子任務形式匯出到OSS Bucket中。僅支援通過OpenAPI進行操作。

匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。