すべてのプロダクト
Search
ドキュメントセンター

Cloud Parallel File Storage:データフロータスク

最終更新日:Dec 28, 2024

凌雲向けクラウド並列ファイルストレージ (CPFS) は、バッチおよびストリーミングデータフロータスクをサポートしています。ビジネス要件に基づいてタスクの種類を選択できます。

バッチタスク

バッチタスクを使用すると、1 つのディレクトリのすべてのファイルを一度に別のディレクトリにインポートできます。このタスクの種類は、トレーニングタスクが開始される前にデータセットをプリロードするのに適しています。

ストリーミングタスク

ストリーミングタスクを使用すると、1 つのディレクトリから別のディレクトリにファイルを 1 つずつインポートできます。このタスクの種類は、モデルトレーニングの計算タスク中に複数のチェックポイントファイルを継続的に読み書きするのに適しています。

説明

タスクの説明

データフロータスクは、データ操作に基づいて、インポート、エクスポート、StreamImport、StreamExport の種類に分類されます。

種類

説明

インポート

ソースオブジェクトストレージサービス (OSS) バケットから凌雲向け CPFS ファイルシステムに一度にデータをインポートします。

  • オブジェクトのデータブロックとメタデータをインポートできます。

  • インポートパスは、OSS バケット内のオブジェクトのパスです。データフロータスクは、OSS バケット内のオブジェクトのパスから凌雲向け CPFS ファイルシステムにデータをインポートします。

エクスポート

凌雲向け CPFS ファイルシステムから OSS バケットに指定されたデータを一度にエクスポートします。

エクスポートパスは、凌雲向け CPFS ファイルシステム内のファイルまたはディレクトリのパスです。データフロータスクは、凌雲向け CPFS ファイルシステム内のファイルまたはディレクトリのパスから OSS バケットにデータをエクスポートします。

警告
  • 凌雲向け CPFS は、ファイル変更タイムスタンプ属性を OSS バケットのカスタムメタデータにエクスポートします。メタデータフィールドの名前は x-oss-meta-alihbr-sync-mtime であり、削除または変更することはできません。削除または変更すると、ファイルシステムのファイル変更タイムスタンプ属性にアクセスするときにエラーが発生します。

  • データフローが使用されている場合は、ソース OSS バケットのバージョン管理を無効にしないでください。無効にすると、エクスポートタスクの実行時にエラーが報告されます。詳細については、バージョン管理を参照してください。

StreamImport

ソース OSS バケットから凌雲向け CPFS ファイルシステムに指定されたオブジェクトを 1 つずつインポートします。StreamImport タスクは、API オペレーションを呼び出すことによってのみ使用できます。

  • オブジェクトのデータブロックとメタデータをインポートできます。

  • インポートパスは、OSS バケット内のオブジェクトのパスです。データフロータスクは、OSS バケット内のオブジェクトのパスから凌雲向け CPFS ファイルシステムにデータをインポートします。

StreamExport

凌雲向け CPFS ファイルシステムから OSS バケットに指定されたファイルを 1 つずつエクスポートします。StreamExport タスクは、API オペレーションを呼び出すことによってのみ使用できます。

エクスポートパスは、凌雲向け CPFS ファイルシステム内のファイルまたはディレクトリのパスです。データフロータスクは、凌雲向け CPFS ファイルシステム内のファイルまたはディレクトリのパスから OSS バケットにデータをエクスポートします。