全部產品
Search
文件中心

Cloud Parallel File Storage:CPFS智算版資料流動(邀測)

更新時間:Jun 06, 2026

當您需要實現CPFS智算版檔案系統與OSS Bucket之間的資料進行資料流動時,必須建立資料流動並為其建立資料流動任務,即可完成資料的高速傳輸。

功能介紹

CPFS智算版支援以下資料流動功能:

  • 帳號層級的資料流動

    支援與同帳號或跨帳號OSS Bucket之間的資料進行資料流動。

  • 目錄層級的資料流動

    您可以通過建立資料流動,建立從CPFS智算版檔案系統任意子目錄到OSS Bucket下任意prefix的映射,實現更細粒度的許可權控制與更靈活的資料轉送。

  • 資料的匯入與匯出

    • 支援通過建立批式任務或流式任務實現CPFS智算版檔案系統與OSS之間的資料匯入和匯出。批式任務適用於計算任務開始前資料集的整體預先載入;流式任務適用於計算任務訓練過程中,對模型Checkpoint等單個檔案按需發起寫回與預先載入的情境。

      警告

      CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。

    • 如果任務執行失敗,您可以通過任務報告檢查失敗原因。

      重要

      任務報告僅供您參考,以實際資料流動完成後的內容為準,請您自行完成源端和目的端資料一致性校正。

資料流動任務類型

CPFS智算版提供批式任務和流式任務兩種任務類型,您可以根據業務情境選擇適合的任務類型。

批式任務

批式任務是將一個目錄下的所有檔案一次性匯入或匯出。適用於智算訓練前資料集的整體預先載入。

流式任務

流式任務以單個檔案為粒度、按需發起資料流動。適用於計算任務訓練過程中,對模型Checkpoint等單個檔案按需寫回與載入的情境。每次流動都需通過OpenAPI主動提交子任務觸發,系統不會自動同步檔案變更。

說明
  • 僅CPFS智算版2.6.0及以上版本支援流式任務。

  • 僅支援通過OpenAPI使用流式任務。具體操作,請參見管理流式任務(OpenAPI)

任務說明

按任務對資料的操作,可分為匯入(Import)、匯出(Export)、流式匯入(StreamImport)、流式匯出(StreamExport)四種類型。

類型

說明

匯入(Import)

將源端儲存的資料一次性匯入CPFS智算版檔案系統。

  • 匯入類型:支援匯入檔案的資料(MetaAndData)。

  • 匯入路徑:是檔案OSS Bucket中的路徑。資料流動任務按檔案在OSS Bucket中的路徑匯入到CPFS智算版檔案系統中。

匯出(Export)

將CPFS智算版檔案系統內指定的資料一次性匯出到OSS Bucket中。

匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。

警告
  • CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。

  • 在資料流動的使用過程中,不能暫停源端OSS Bucket的版本控制,否則執行匯出任務時會報錯。更多資訊,請參見版本控制

流式匯入(StreamImport)

將源端儲存指定的資料按單個檔案粒度的子任務形式匯入到CPFS智算版檔案系統。僅支援通過OpenAPI進行操作。

  • 匯入類型:支援匯入檔案的資料(MetaAndData)。

  • 匯入路徑:是檔案OSS Bucket中的路徑。資料流動任務按檔案在OSS Bucket中的路徑匯入到CPFS智算版檔案系統中。

流式匯出(StreamExport)

將CPFS智算版檔案系統內指定的資料按單個檔案粒度的子任務形式匯出到OSS Bucket中。僅支援通過OpenAPI進行操作。

匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。

使用限制

  • 資料流動

    • CPFS智算版2.4.0及以上版本支援同帳號資料流動,CPFS智算版2.6.0及以上版本支援跨帳號資料流動。

    • 單個CPFS智算版檔案系統最多支援建立10個資料流動。

    • CPFS智算版檔案系統的一個檔案路徑只能與一個OSS Bucket連結。

    • CPFS智算版檔案系統不支援與其他地區的OSS Bucket建立資料流動。

  • 資料流動對路徑、檔案名稱和目錄名的限制

    • 在資料流動關聯的檔案系統路徑中,不可對非空目錄執行重新命名操作,否則報錯Permission Denied或者目錄非空。

    • 目錄、檔案名稱中的特殊字元需要謹慎使用。

      • 支援大小寫字母、數字、驚嘆號(!)、短劃線(-)、底線(_)、半形句號(.)、星號(*)和半形圓括弧(())特殊字元。

      • 不支援出現以下特殊字元,否則可能會導致您的任務產生非預期的結果或運行失敗。

        • 不支援子目錄或檔案名稱為雙半形句號(..)的檔案。

        • 不支援路徑包含反斜線(\)、連續反斜線(\\)的檔案。

        • 不支援子目錄和檔案名稱包含正斜線(/)的檔案。

    • 不支援超長路徑,資料流動支援的路徑最大長度是1023個字元。

  • 資料流動任務限制

    • 僅CPFS智算版2.6.0及以上版本支援流式任務,且僅支援通過OpenAPI使用。

    • 單個資料流動下最多支援同時運行4個批式任務,流式任務無限制。

    • 匯入限制

      • Symlink類型的檔案匯入到CPFS智算版後,會轉變為包含資料的普通檔案,並丟失Symlink資訊。

      • 如果OSS Bucket存在多個版本,則只複製最新的版本。

      • 不支援長度大於255位元組的檔案名稱或子目錄名。

    • 匯出限制

      • Symlink類型的檔案在同步到OSS後,不會同步Symlink所指向的檔案,而是會變成一個普通的無資料空白對象。

      • Hardlink類型的檔案僅作為普通檔案同步到OSS。

      • Socket、Device、Pipe類型的檔案匯出到OSS Bucket時,會變成一個普通的無資料空白對象。

      • 不支援長度大於1023字元的目錄路徑。

效能指標

操作類型

指標

說明

匯入資料

GB級以上檔案吞吐

  • 單檔案匯入吞吐最大為5 GB/s。

  • 多檔案匯入吞吐最大為100 GB/s。

    說明

    實際的吞吐能力會受到OSS頻寬和CPFS智算版檔案系統吞吐能力的限制,也會受到檔案大小、檔案數、資料量的影響。關於OSS的頻寬能力,請參見頻寬;關於CPFS智算版的吞吐能力,請參見產品規格

MB級檔案每秒處理個數

單目錄、多目錄匯入:1000。

匯出資料

GB級以上檔案吞吐

  • 單檔案匯出吞吐最大為5 GB/s。

  • 多檔案匯出吞吐最大為100 GB/s。

    說明

    實際的吞吐能力會受到OSS頻寬和CPFS智算版檔案系統吞吐能力的限制,也會受到檔案大小、檔案數、資料量的影響。關於OSS的頻寬能力,請參見頻寬;關於CPFS智算版的吞吐能力,請參見產品規格

MB級檔案每秒處理個數

單目錄、多目錄匯出:1200。

費用說明

CPFS智算版資料流動功能當前公測中,免費使用。

使用流程

  1. 建立資料流動。

  2. 建立批式任務或流式任務。

  3. 校正資料

    資料流動任務完成後,請務必校正目的端資料,確保資料準確無誤。

    警告

    如果您在刪除來源資料前,未校正目的端資料轉送無誤,由此造成的資料丟失及一切損失和後果均由您自行承擔。