データフロー機能により、Cloud Parallel File Storage (CPFS) for Lingjun ファイルシステムは Object Storage Service (OSS) バケットとデータを交換できます。データフローとデータフロータスクを作成して、CPFS for Lingjun ファイルシステムと OSS バケット間でデータを高速に転送できます。
機能概要
CPFS for Lingjun では、データフロー機能を使用して次の操作を実行できます。
アカウントレベルでのデータ転送
同じアカウント内またはアカウント間で、凌雲向け CPFS ファイルシステムと OSS バケット間でデータを転送するデータフローを作成できます。
ディレクトリレベルでのデータ転送
データフローを作成して、CPFS for Lingjun ファイルシステムのサブディレクトリを OSS バケットのプレフィックスにマッピングできます。これにより、詳細な権限管理と柔軟なデータ転送が可能になります。
データのインポートとエクスポート
バッチタスクまたはストリーミングタスクを作成して、CPFS for Lingjun と OSS 間でデータをインポートおよびエクスポートできます。バッチタスクは、コンピューティングタスクが開始される前にデータセットをプリロードするのに適しています。ストリーミングタスクは、モデルトレーニングのコンピューティングタスク中に複数のチェックポイントファイルを継続的に読み書きするのに適しています。
警告CPFS for Lingjun は、ファイルの変更タイムスタンプ属性を OSS バケットのカスタムメタデータにエクスポートします。メタデータフィールド名は
x-oss-meta-alihbr-sync-mtimeであり、削除または変更はできません。削除または変更すると、ファイルシステムのファイルの変更タイムスタンプ属性にアクセスする際にエラーが発生します。データフロータスクが失敗した場合、タスクレポートに基づいて失敗の原因を特定できます。
重要タスクレポートは参考用です。データフロー完了後の実際のコンテンツが正式なものとなります。ソースと宛先の間のデータ整合性は、お客様自身で検証する必要があります。
制限
データフローの制限
凌雲向け CPFS V2.4.0 以降では、同じアカウント内でのデータフローがサポートされています。 凌雲向け CPFS V2.6.0 以降では、アカウント間のデータフローがサポートされています。
凌雲向け CPFS ファイルシステムに対して作成できるデータフローは最大 10 個です。
凌雲向け CPFS ファイルシステムのファイルパスは、1 つの OSS バケットにのみ関連付けることができます。
凌雲向け CPFS ファイルシステムと別のリージョンにある OSS バケットとの間でデータフローを作成することはできません。
パス、ファイル名、ディレクトリ名に関する制限
データフローに関連付けられているパス内の空でないディレクトリの名前を変更することはできません。変更しようとすると、
Permission Deniedエラーメッセージ、またはディレクトリが空ではないことを示すエラーメッセージが返されます。ディレクトリやファイルの名前に特殊文字を使用する場合は、注意が必要です。
サポートされている文字は、英字、数字、感嘆符 (!)、ハイフン (-)、アンダースコア (_)、ピリオド (.)、アスタリスク (*)、および括弧 (()) です。
次の文字はサポートされていません。使用すると、予期しない結果や障害が発生する可能性があります。
サブディレクトリ名またはファイル名にダブルピリオド (..) を使用すること。
パスにバックスラッシュ (\) または連続するバックスラッシュ (\\) を使用すること。
サブディレクトリ名またはファイル名にフォワードスラッシュ (/) を含むファイルはサポートされていません。
パスの長さは最大 1,023 文字です。
データフロータスクに関する制限
CPFS for Lingjun V2.6.0 以降のみがストリーミングタスクをサポートします。さらに、ストリーミングタスクは API 操作を呼び出すことによってのみ使用できます。
データフローに対して同時に実行できるバッチタスクは最大 4 つです。ストリーミングタスクに制限はありません。
データインポートに関する制限
シンボリックリンクが CPFS for Lingjun にインポートされると、シンボリックリンクはシンボリックリンク情報を含まない通常のファイルに変換されます。
OSS バケットに複数バージョンのデータが含まれている場合、最新バージョンのデータのみがインポートされます。
ファイルまたはサブディレクトリの名前の長さは最大 255 バイトです。
データエクスポートに関する制限
シンボリックリンクが OSS に同期された後、シンボリックリンクが指すファイルは OSS に同期されません。この場合、シンボリックリンクはデータを含まない通常のオブジェクトに変換されます。
ハードリンクは、リンク情報を含まない通常のファイルとしてのみ OSS に同期できます。
Socket、Device、または Pipe タイプのファイルが OSS バケットにエクスポートされると、そのファイルはデータを含まない通常のオブジェクトに変換されます。
ディレクトリパスの長さは最大 1,023 文字です。
パフォーマンスメトリック
操作 | メトリック | 説明 |
データインポート | サイズが 1 GB を超えるファイルのスループット |
|
1 秒あたりに処理されるメガバイトサイズのファイル数 | 1 つ以上のディレクトリのインポートの IOPS は 1,000 です。 | |
データエクスポート | サイズが 1 GB を超えるファイルのスループット |
|
1 秒あたりに処理される MB サイズのファイル数 | 1 つ以上のディレクトリのエクスポートの IOPS は 1,200 です。 |
課金
凌雲向け CPFS のデータフロー機能はパブリックプレビュー段階であり、無料です。
手順
データフローを作成します。
同一アカウント内にデータフローを作成する方法の詳細については、「同一アカウント内にデータフローを作成する」をご参照ください。
アカウント間でデータフローを作成する方法の詳細については、「アカウント間でデータフローを作成する」をご参照ください。
バッチタスクまたはストリーミングタスクを作成します。
ストリーミングタスクの作成方法の詳細については、「データフロータスクの管理」をご参照ください。
バッチタスクの作成方法の詳細については、「ストリーミングデータフロータスクのベストプラクティス」をご参照ください。
データの検証
データフロータスクが完了したら、宛先のデータを検証してデータの正確性を確認する必要があります。
警告宛先のデータが正しく転送されたことを確認する前にソースデータを削除した場合、データの損失およびその結果生じるすべての損失と結果について、お客様が責任を負うものとします。