當您需要實現CPFS智算版檔案系統與OSS Bucket之間的資料進行資料流動時,必須建立資料流動並為其建立資料流動任務,即可完成資料的高速傳輸。
功能介紹
CPFS智算版支援以下資料流動功能:
帳號層級的資料流動
支援與同帳號或跨帳號OSS Bucket之間的資料進行資料流動。
目錄層級的資料流動
您可以通過建立資料流動,建立從CPFS智算版檔案系統任意子目錄到OSS Bucket下任意prefix的映射,實現更細粒度的許可權控制與更靈活的資料轉送。
資料的匯入與匯出
支援通過建立批式任務或流式任務實現CPFS智算版檔案系統與OSS之間的資料匯入和匯出。批式任務適用於計算任務開始前資料集的整體預先載入;流式任務適用於計算任務訓練過程中,對模型Checkpoint等單個檔案按需發起寫回與預先載入的情境。
警告CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為
x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。如果任務執行失敗,您可以通過任務報告檢查失敗原因。
重要任務報告僅供您參考,以實際資料流動完成後的內容為準,請您自行完成源端和目的端資料一致性校正。
資料流動任務類型
CPFS智算版提供批式任務和流式任務兩種任務類型,您可以根據業務情境選擇適合的任務類型。
批式任務
批式任務是將一個目錄下的所有檔案一次性匯入或匯出。適用於智算訓練前資料集的整體預先載入。
流式任務
流式任務以單個檔案為粒度、按需發起資料流動。適用於計算任務訓練過程中,對模型Checkpoint等單個檔案按需寫回與載入的情境。每次流動都需通過OpenAPI主動提交子任務觸發,系統不會自動同步檔案變更。
僅CPFS智算版2.6.0及以上版本支援流式任務。
僅支援通過OpenAPI使用流式任務。具體操作,請參見管理流式任務(OpenAPI)。
任務說明
按任務對資料的操作,可分為匯入(Import)、匯出(Export)、流式匯入(StreamImport)、流式匯出(StreamExport)四種類型。
類型 | 說明 |
匯入(Import) | 將源端儲存的資料一次性匯入CPFS智算版檔案系統。
|
匯出(Export) | 將CPFS智算版檔案系統內指定的資料一次性匯出到OSS Bucket中。 匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。 警告
|
流式匯入(StreamImport) | 將源端儲存指定的資料按單個檔案粒度的子任務形式匯入到CPFS智算版檔案系統。僅支援通過OpenAPI進行操作。
|
流式匯出(StreamExport) | 將CPFS智算版檔案系統內指定的資料按單個檔案粒度的子任務形式匯出到OSS Bucket中。僅支援通過OpenAPI進行操作。 匯出路徑:檔案或目錄在CPFS智算版檔案系統中的路徑。資料流動任務按檔案在檔案系統中的路徑匯出到Bucket中。 |
使用限制
資料流動
CPFS智算版2.4.0及以上版本支援同帳號資料流動,CPFS智算版2.6.0及以上版本支援跨帳號資料流動。
單個CPFS智算版檔案系統最多支援建立10個資料流動。
CPFS智算版檔案系統的一個檔案路徑只能與一個OSS Bucket連結。
CPFS智算版檔案系統不支援與其他地區的OSS Bucket建立資料流動。
資料流動對路徑、檔案名稱和目錄名的限制
在資料流動關聯的檔案系統路徑中,不可對非空目錄執行重新命名操作,否則報錯
Permission Denied或者目錄非空。目錄、檔案名稱中的特殊字元需要謹慎使用。
支援大小寫字母、數字、驚嘆號(!)、短劃線(-)、底線(_)、半形句號(.)、星號(*)和半形圓括弧(())特殊字元。
不支援出現以下特殊字元,否則可能會導致您的任務產生非預期的結果或運行失敗。
不支援子目錄或檔案名稱為雙半形句號(..)的檔案。
不支援路徑包含反斜線(\)、連續反斜線(\\)的檔案。
不支援子目錄和檔案名稱包含正斜線(/)的檔案。
不支援超長路徑,資料流動支援的路徑最大長度是1023個字元。
資料流動任務限制
僅CPFS智算版2.6.0及以上版本支援流式任務,且僅支援通過OpenAPI使用。
單個資料流動下最多支援同時運行4個批式任務,流式任務無限制。
匯入限制
Symlink類型的檔案匯入到CPFS智算版後,會轉變為包含資料的普通檔案,並丟失Symlink資訊。
如果OSS Bucket存在多個版本,則只複製最新的版本。
不支援長度大於255位元組的檔案名稱或子目錄名。
匯出限制
Symlink類型的檔案在同步到OSS後,不會同步Symlink所指向的檔案,而是會變成一個普通的無資料空白對象。
Hardlink類型的檔案僅作為普通檔案同步到OSS。
Socket、Device、Pipe類型的檔案匯出到OSS Bucket時,會變成一個普通的無資料空白對象。
不支援長度大於1023字元的目錄路徑。
效能指標
操作類型 | 指標 | 說明 |
匯入資料 | GB級以上檔案吞吐 |
|
MB級檔案每秒處理個數 | 單目錄、多目錄匯入:1000。 | |
匯出資料 | GB級以上檔案吞吐 |
|
MB級檔案每秒處理個數 | 單目錄、多目錄匯出:1200。 |
費用說明
CPFS智算版資料流動功能當前公測中,免費使用。
使用流程
建立資料流動。
建立批式任務或流式任務。
流式任務,請參見管理流式任務(OpenAPI)。
批式任務,請參見管理批式任務。
校正資料
資料流動任務完成後,請務必校正目的端資料,確保資料準確無誤。
警告如果您在刪除來源資料前,未校正目的端資料轉送無誤,由此造成的資料丟失及一切損失和後果均由您自行承擔。