全部產品
Search
文件中心

Cloud Parallel File Storage:管理資料流動任務

更新時間:Jul 24, 2025

本文介紹如何在檔案儲存體控制台建立、管理CPFS智算版檔案系統的資料流動任務及查看任務失敗原因。

背景資訊

通過控制台建立的資料流動任務為批式任務,僅能一次性匯入或匯出一個目錄中的所有檔案至另一個目錄,無法實現單檔案粒度的持久性流動。如果您需要實現單檔案粒度的持久性流動,則需通過流式任務的OpenAPI進行操作。具體操作,請參見資料流動流式任務最佳實務

前提條件

建立任務

  1. 登入檔案儲存體控制台

  2. 在左側導覽列,選擇檔案系統>檔案系統列表

  3. 在頂部功能表列,選擇地區。

  4. 檔案系統列表頁面,單擊目標CPFS智算版檔案系統名稱。

  5. 在檔案系統詳情頁面,單擊資料流動

  6. 資料流動頁面,找到目標資料流動,單擊任務管理

  7. 任務管理面板,單擊建立任務

  8. 建立任務面板,您可以建立不同類型的任務並配置任務詳情。

    匯入資料

    • Symlink類型的檔案匯入到CPFS後,會轉變為包含資料的普通檔案,並丟失Symlink資訊。

    • 如果OSS Bucket存在多個版本,則只複製最新的版本。

    • 不支援長度大於255位元組的檔案名稱或子目錄名。

    • 目錄和檔案不支援出現以下特殊字元,否則可能會導致您的任務產生非預期的結果或運行失敗。

      • 不支援子目錄或檔案名稱為雙半形句號(..)的檔案。

      • 不支援路徑包含反斜線(\)、連續反斜線(\\)的檔案。

      • 不支援子目錄和檔案名稱包含正斜線(/)的檔案。

    • 當檔案名稱和檔案子目錄發生衝突時,在CPFS檔案系統中會出現對象衝突的情況,只能確保其中一個操作成功,而另一個則會失敗。

    配置項

    說明

    衝突策略

    當CPFS智算版檔案系統與OSS Bucket存在同名檔案時的處理策略。

    • 跳過同名檔案(預設):忽略同名檔案不進行同步。

    • 保持最新:同名檔案比較更新時間(即mtime),保持更新的版本。OSS採用修改時間,CPFS採用修改時間。

    • 覆蓋同名檔案:將同名檔案覆蓋為OSS端版本。選中將當前源端檔案覆蓋目標端已存在的同名檔案,請確保您已備份重要資料。

    匯入資料類型

    支援資料+中繼資料類型。表示同時匯入檔案的資料區塊及中繼資料。

    指定OSS Object Prefix子目錄

    選擇資料流動任務執行的目錄或檔案清單。必須是OSS Object Prefix內的相對路徑,且以正斜線(/)開頭和結尾。

    說明

    如果建立資料流動時配置的CPFS路徑不存在,您可以選中如果您當前建立的CPFS目錄不存在,系統將為您自動建立,以防匯入資料失敗。自動建立目錄功能僅CPFS智算版2.6.0及以上版本支援。

    匯出資料

    • 源端OSS Bucket已開啟版本控制。在資料流動的使用過程中,不能暫停版本控制,否則執行匯出任務時會報錯。更多資訊,請參見版本控制介紹

    • Symlink類型的檔案在同步到OSS後,不會同步Symlink所指向的檔案,而是會變成一個普通的無資料空白對象。

    • Hardlink類型的檔案僅作為普通檔案同步到OSS。

    • 不支援Socket、Device、Pipe類型的檔案匯出到OSS Bucket。

    • 不支援長度大於1023字元的目錄路徑。

    • 目錄和檔案不支援出現以下特殊字元,否則可能會導致您的任務產生非預期的結果或運行失敗。

      • 不支援子目錄或檔案名稱為雙半形句號(..)的檔案。

      • 不支援路徑包含反斜線(\)、連續反斜線(\\)的檔案。

      • 不支援子目錄和檔案名稱包含正斜線(/)的檔案。

    • CPFS智算版會將File Modification timestamps屬性匯出到OSS Bucket的自訂中繼資料中,其命名為x-oss-meta-alihbr-sync-mtime,不能刪除或修改,否則檔案系統中的File Modification timestamps屬性會錯誤。

    配置項

    說明

    衝突策略

    當CPFS智算版檔案系統與OSS Bucket存在同名檔案時的處理策略。

    • 跳過同名檔案(預設):忽略同名檔案不進行同步。

    • 保持最新:同名檔案比較更新時間(即mtime),保持更新的版本。OSS採用修改時間,CPFS採用修改時間。

    • 覆蓋同名檔案:將同名檔案覆蓋為CPFS端版本。選中將當前源端檔案覆蓋目標端已存在的同名檔案,請確保您已備份重要資料。

    匯出資料類型

    支援資料+中繼資料類型。表示同時匯出檔案的資料區塊及中繼資料。

    指定CPFS目錄子目錄

    選擇資料流動任務執行的目錄或者檔案清單。必須是CPFS目錄內的相對路徑,且以正斜線(/)開頭和結尾。例如/cpfs/

  9. 單擊確定

取消任務

取消運行中的資料流動任務。

  1. 資料流動頁簽,找到目標資料流動,單擊任務管理

  2. 任務管理面板,找到目標任務,單擊取消

  3. 確認待取消的任務,單擊確定

複製任務

您可以通過複製任務重複執行之前已經執行過的任務。

  1. 資料流動頁簽,找到目標資料流動,單擊任務管理

  2. 任務管理面板,找到目標任務,選擇image表徵圖 > 複製

  3. 確認待覆制的任務,單擊確定

查看任務失敗原因

當資料流動任務運行失敗後,系統會顯示失敗原因或產生一份失敗任務報告,您可以在控制台上查看失敗原因或下載該報告並排查失敗原因。

  1. 資料流動頁簽,找到目標資料流動,單擊任務管理

  2. 任务管理面板,找到目標任務,並將游標放置失敗右側的氣泡上,查看失敗原因或下載失敗報告查看失敗原因。

    說明

    若未顯示失敗原因或無報告或無法根據報告排查失敗原因,請諮詢處理。

查看任務配置資訊和運行狀態

在控制台中查看批式任務的配置資訊及運行狀態。如果想查看流式任務的配置資訊及運行狀態,可通過調用DescribeDataFlowTasks API進行查詢。

  1. 資料流動頁簽,找到目標資料流動,單擊任務管理

  2. 任務管理面板,查看任務的配置資訊及運行狀態。

    參數

    說明

    任務ID

    資料流動任務的唯一標識。

    類型

    任務類型。包括:匯入或匯出。

    衝突策略

    目標檔案系統中已存在同名資料時的處理方式。包括:

    • 跳過同名檔案(預設)

    • 保持最新

    • 覆蓋同名檔案

    資料來源地址

    資料從源端到目的端的完整傳輸路徑。

    資料目的地址

    資料來源目錄

    源端掃描總量

    掃描到的源端資料量。單位:位元組。

    同步完成量

    已完成資料流動資料量(包括跳過資料)。單位:位元組。

    實際傳輸量

    實際流動的資料量。單位:位元組。

    平均速度

    資料流動的平均傳輸速度。單位:Byte/s。

    剩餘時間長度

    基於當前速度估算的任務完成所需時間。

    時間段

    任務開始時間和結束時間。

    進度

    當前任務的執行進度百分比。單位:%。

    狀態

    當前任務的執行情況。包括:

    • 等待:資料流動任務已建立,在排隊中未開始執行。

    • 運行中:資料流動任務在執行中。

    • 失敗:資料流動任務執行失敗。

    • 已取消:資料流動任務被取消並且沒有完成。

    • 取消中:資料流動任務正在被取消。

    • 結束:資料流動任務執行結束。

查看任務報告

當資料流動任務運行結束後,系統將根據實際情況產生跳過的檔案報告失敗的檔案報告成功檔案報告。您可以在控制台下載報告並查看檔案的詳細資料。

  1. 資料流動頁簽,找到目標資料流動,單擊任務管理

  2. 任務管理面板,找到目標任務,單擊下載任務報告

  3. 確認待下載的報告,單擊image

查看任務效能監控或配置警示規則

要查看任務效能監控或配置警示規則,請確保使用的是CPFS智算版檔案系統2.6.0及以上版本,並已建立資料流動任務。

  • 如果您想瞭解資料流動匯入或匯出任務的讀寫吞吐、讀寫IOPS、中繼資料QPS等效能概況,請參見查看CPFS效能監控

  • 如果您希望為資料流動任務指定監控指標設定警示規則,以便及時獲知指標異常並迅速處理該異常,請參見配置基礎警示規則