CPFS for Lingjun ファイルシステムと OSS バケット間でデータを移動するには、データストリームとデータストリームタスクを作成します。これにより、高速なデータ伝送が可能になります。
特徴
CPFS for Lingjun は、次のデータフロー機能をサポートしています。
アカウントレベルのデータストリーム
同一アカウント内または異なるアカウント間の OSS バケット間でデータを移動できます。
ディレクトリレベルのデータストリーム
データストリームを作成して、CPFS for Lingjun ファイルシステムの任意のサブディレクトリを OSS バケット内の任意のプレフィックスにマッピングできます。これにより、よりきめ細かなアクセスの制御と柔軟なデータ伝送が実現します。
データのインポートとエクスポート
バッチタスクまたはストリームタスクを作成することで、CPFS for Lingjun ファイルシステムと OSS 間でデータをインポートおよびエクスポートできます。バッチタスクは、コンピューティングタスクが開始される前にデータセットをプリロードするのに適しています。ストリームタスクは、モデルトレーニング中に複数のモデルチェックポイントファイルの継続的なライトバックとプリロードが必要なシナリオに適しています。
警告CPFS for Lingjun は、ファイルの変更タイムスタンププロパティを OSS バケットのカスタムメタデータにエクスポートします。このプロパティの名前は
x-oss-meta-alihbr-sync-mtimeです。このメタデータを削除または変更しないでください。変更した場合、ファイルシステム内のファイルの変更タイムスタンププロパティが不正確になります。タスクが失敗した場合、タスクレポートを確認して失敗の原因を特定できます。
重要タスクレポートは参照用です。データストリームタスクが完了した後、送信先のデータが最終的な正情報源となります。送信元と送信先の間のデータ整合性を検証する必要があります。
制限事項
データストリーム
CPFS for Lingjun 2.4.0 以降は同一アカウント内のデータストリームをサポートし、CPFS for Lingjun 2.6.0 以降は異なるアカウント間のデータストリームをサポートします。
1 つの CPFS for Lingjun ファイルシステムでサポートされるデータストリームは最大 10 個です。
CPFS for Lingjun ファイルシステム内のファイルパスは、1 つの OSS バケットにのみリンクできます。
CPFS for Lingjun ファイルシステムと異なるリージョンにある OSS バケットとの間でデータストリームを作成することはできません。
データストリームのパス、ファイル名、ディレクトリ名に関する制限
データストリームに関連付けられたファイルシステムパスでは、空でないディレクトリの名前を変更しないでください。変更した場合、
Permission Deniedまたはディレクトリが空でないというエラーが発生します。ディレクトリ名やファイル名での特殊文字の使用には注意が必要です。
サポートされている文字は、大文字、小文字、数字、感嘆符 (!)、ハイフン (-)、アンダースコア (_)、ピリオド (.)、アスタリスク (*)、括弧 (()) です。
以下の特殊文字はサポートされていません。これらを使用すると、タスクが予期しない結果を生成したり、失敗したりする可能性があります。
サブディレクトリ名またはファイル名が 2 つのピリオド (..) であるファイルはサポートされていません。
パスにバックスラッシュ (\) または連続するバックスラッシュ (\\) が含まれるファイルはサポートされていません。
サブディレクトリ名またはファイル名にスラッシュ (/) が含まれるファイルはサポートされていません。
長いパスはサポートされていません。データストリームでサポートされる最大パス長は 1023 文字です。
データストリームタスクの制限
ストリームタスクは CPFS for Lingjun 2.6.0 以降でのみサポートされており、OpenAPI を通じてのみ使用できます。
1 つのデータストリームで同時に実行できるバッチタスクは最大 4 つです。ストリームタスクの数に制限はありません。
インポートの制限
シンボリックリンクファイルが CPFS for Lingjun にインポートされると、データを含む通常ファイルに変換され、シンボリックリンク情報は失われます。
OSS バケットにオブジェクトの複数バージョンが存在する場合、最新バージョンのみがコピーされます。
255 バイトを超えるファイル名またはサブディレクトリ名はサポートされていません。
エクスポートの制限
シンボリックリンクファイルは OSS に同期されると空のオブジェクトになります。それらが指すファイルは同期されません。
ハードリンクファイルは通常ファイルとして OSS に同期されます。
ソケット、デバイス、パイプファイルは OSS バケットにエクスポートされると空のオブジェクトになります。
1023 文字を超えるディレクトリパスはサポートされていません。
パフォーマンスメトリック
操作タイプ | メトリック | 説明 |
データインポート | 1 GB を超えるファイルのスループット |
|
1 秒あたりに処理される MB レベルのファイル数 | 単一ディレクトリおよび複数ディレクトリのインポート:1,000。 | |
データエクスポート | 1 GB を超えるファイルのスループット |
|
1 秒あたりに処理される MB レベルのファイル数 | 単一ディレクトリおよび複数ディレクトリのエクスポート:1,200。 |
料金
CPFS for Lingjun のデータストリーム機能はパブリックプレビュー中であり、無料でご利用いただけます。
操作手順
データストリームを作成します。
同一アカウント内のデータストリームについては、「同一アカウントのデータストリームの作成」をご参照ください。
異なるアカウント間のデータストリームについては、「異なるアカウントのデータストリームの作成」をご参照ください。
バッチタスクまたはストリームタスクを作成します。
ストリームタスクについては、「データストリームタスクのベストプラクティス」をご参照ください。
バッチタスクについては、「データストリームタスクの管理」をご参照ください。
データを検証します。
データストリームタスクが完了したら、送信先のデータを検証してその正確性を確認します。
警告データが送信先に正しく転送されたことを確認する前にソースデータを削除した場合、その結果生じるいかなるデータ損失についてもお客様の責任となります。