當您需要實現CPFS智算版檔案系統與OSS Bucket之間的資料進行資料流動時,必須建立資料流動並為其建立資料流動任務,即可完成資料的高速傳輸。
功能介紹
CPFS智算版支援以下資料流動功能:
帳號層級的資料流動
支援與同帳號或跨帳號OSS Bucket之間的資料進行資料流動。
目錄層級的資料流動
您可以通過建立資料流動,建立從CPFS智算版檔案系統任意子目錄到OSS Bucket下任意prefix的映射,實現更細粒度的許可權控制與更靈活的資料轉送。
資料的匯入與匯出
支援通過建立批式任務或流式任務實現CPFS智算版檔案系統與OSS之間的資料匯入和匯出。批式任務適用於計算任務開始前資料集的預先載入;流式任務適用於計算任務訓練中模型多個Checkpoint檔案持久性的寫回與預先載入情境。
警告CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為
x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。如果任務執行失敗,您可以通過任務報告檢查失敗原因。
重要任務報告僅供您參考,以實際資料流動完成後的內容為準,請您自行完成源端和目的端資料一致性校正。
使用限制
資料流動
CPFS智算版2.4.0及以上版本支援同帳號資料流動,CPFS智算版2.6.0及以上版本支援跨帳號資料流動。
單個CPFS智算版檔案系統最多支援建立10個資料流動。
CPFS智算版檔案系統的一個檔案路徑只能與一個OSS Bucket連結。
CPFS智算版檔案系統不支援與其他地區的OSS Bucket建立資料流動。
資料流動對路徑、檔案名稱和目錄名的限制
在資料流動關聯的檔案系統路徑中,不可對非空目錄執行重新命名操作,否則報錯
Permission Denied或者目錄非空。目錄、檔案名稱中的特殊字元需要謹慎使用。
支援大小寫字母、數字、驚嘆號(!)、短劃線(-)、底線(_)、半形句號(.)、星號(*)和半形圓括弧(())特殊字元。
不支援出現以下特殊字元,否則可能會導致您的任務產生非預期的結果或運行失敗。
不支援子目錄或檔案名稱為雙半形句號(..)的檔案。
不支援路徑包含反斜線(\)、連續反斜線(\\)的檔案。
不支援子目錄和檔案名稱包含正斜線(/)的檔案。
不支援超長路徑,資料流動支援的路徑最大長度是1023個字元。
資料流動任務限制
僅CPFS智算版2.6.0及以上版本支援流式任務,且僅支援通過OpenAPI使用。
單個資料流動下最多支援同時運行4個批式任務,流式任務無限制。
匯入限制
Symlink類型的檔案匯入到CPFS智算版後,會轉變為包含資料的普通檔案,並丟失Symlink資訊。
如果OSS Bucket存在多個版本,則只複製最新的版本。
不支援長度大於255位元組的檔案名稱或子目錄名。
匯出限制
Symlink類型的檔案在同步到OSS後,不會同步Symlink所指向的檔案,而是會變成一個普通的無資料空白對象。
Hardlink類型的檔案僅作為普通檔案同步到OSS。
Socket、Device、Pipe類型的檔案匯出到OSS Bucket時,會變成一個普通的無資料空白對象。
不支援長度大於1023字元的目錄路徑。
效能指標
操作類型 | 指標 | 說明 |
匯入資料 | GB級以上檔案吞吐 |
|
MB級檔案每秒處理個數 | 單目錄、多目錄匯入:1000。 | |
匯出資料 | GB級以上檔案吞吐 |
|
MB級檔案每秒處理個數 | 單目錄、多目錄匯出:1200。 |
費用說明
CPFS智算版資料流動功能當前公測中,免費使用。
使用流程
建立資料流動。
建立批式任務或流式任務。
流式任務,請參見管理資料流動任務。
批式任務,請參見資料流動流式任務最佳實務。
校正資料
資料流動任務完成後,請務必校正目的端資料,確保資料準確無誤。
警告如果您在刪除來源資料前,未校正目的端資料轉送無誤,由此造成的資料丟失及一切損失和後果均由您自行承擔。