このトピックでは、NAS コンソールで Cloud Parallel File Storage (CPFS) データフロータスクを作成および管理し、タスクレポートを表示する方法について説明します。
前提条件
CPFS ファイルセットが作成されていること。詳細については、「ファイルセットの作成」をご参照ください。
データフローが作成されていること。詳細については、「データフローの作成」をご参照ください。
タスクの説明
タスクタイプ
実行するデータ操作に基づいて、タスクはインポート、エクスポート、エビクションの 3 種類に分類されます。
タイプ
説明
インポート
ソースストレージから CPFS ファイルシステムにデータをインポートします。
インポートタイプ: メタデータとデータ (MetaAndData) の 2 種類のデータをインポートできます。
メタデータ: ファイルのメタデータのみをインポートします。
データ: ファイルのメタデータとデータの両方をインポートします。
インポートパス: ソース OSS バケット内のファイルのパス。データフロータスクは、OSS バケット内のパスに基づいてファイルをファイルセットにインポートします。
インポートされたファイルまたはディレクトリに POSIX メタデータ属性がない場合、デフォルトのオーナーは root で、デフォルトの権限は 0770 です。
エクスポート
データフローファイルセットから指定されたディレクトリまたはファイルを OSS バケットにエクスポートします。
エクスポートパス: CPFS ファイルシステム内のファイルまたはディレクトリのパス。データフロータスクは、ファイルセット内のパスに基づいてファイルをバケットにエクスポートします。
空のディレクトリ、ハードリンク、シンボリックリンクは OSS にエクスポートできません。
メタデータのエクスポート: ファイルの CreateTime、ModifyTime、Ownership、Permission 属性を OSS バケットにエクスポートできます。ただし、ChangeTime 属性はエクスポートされません。
警告CPFS はメタデータを OSS バケットのカスタムメタデータにエクスポートします。メタデータの名前は
x-oss-meta-afm-xxxです。このメタデータは削除または変更しないでください。削除または変更すると、ファイルシステムのメタデータでエラーが発生する可能性があります。
強制排除
CPFS ファイルシステム上のファイルのデータを解放します。エビクション後、CPFS ファイルシステムにはファイルのメタデータのみが保持されます。ファイルは引き続き表示できますが、そのデータブロックはクリアされ、CPFS ファイルシステム上のストレージ容量を占有しなくなります。ファイルデータにアクセスすると、OSS などのソースストレージからオンデマンドでロードされます。
説明ファイルをエビクションする前に、ファイルの最新バージョンが OSS バケットに存在することを確認してください。
イニシエーターに基づいて、タスクはユーザータスクとシステムタスクに分類されます。
タイプ
説明
ユーザータスク
コンソールで作成された、または CreateDataFlowTask API 操作を呼び出して作成されたデータフロータスク。
コンソールの パネルでユーザータスクをクエリできます。
ユーザータスクが完了すると、タスクレポートが生成され、CPFS ファイルシステムの .dataflow_report ディレクトリに保存されます。
システムタスク
[メタデータの自動更新] を有効にした後、CPFS によって自動的に生成されるタスク。このタスクは、更新されたファイルメタデータを OSS バケットから CPFS に同期します。
システムタスクは、指定された [自動更新間隔 (分)] で自動的に生成され、OSS バケットから更新されたファイルメタデータを同期します。
コンソールの パネルでシステムタスクをクエリできます。
システムタスクはタスクレポートを生成しません。
タスク実行範囲
タスクの範囲は、ディレクトリまたは指定されたファイルリスト (EntryList) です。範囲がディレクトリの場合、タスクはディレクトリツリー内のすべてのファイルを走査します。
データフロータスクの作成
NAS コンソールにログインします。
左側のナビゲーションウィンドウで、ファイルシステム > ファイルシステムリスト を選択します。
上部のナビゲーションバーで、リージョンを選択します。
ファイルシステムリスト ページで、ファイルシステムの名前をクリックします。
ファイルシステムの詳細ページで、Dataflow をクリックします。
Dataflow タブで、ターゲットデータフローを見つけ、[操作] 列の タスク管理 をクリックします。
タスク管理 パネルで、Create Job をクリックします。
Create Job パネルで、タスクのパラメーターを構成します。
データのインポート
構成項目
説明
Data Type
インポートするデータのタイプを選択します。
Data: ファイルのデータとメタデータの両方をインポートします。
Metadata: ファイルのメタデータのみをインポートします。
ファイルメタデータのみをインポートする場合、ファイル名のみをクエリできます。データにアクセスすると、ソースからオンデマンドでロードされます。
Import File
データフロータスクのディレクトリまたはファイルリストを選択します。
Import Objects from OSS: 指定された OSS ディレクトリは、スラッシュ (/) で始まり、スラッシュで終わる必要があります。
Import Listed Objects: ファイルの各行は、OSS バケット内のファイルのパスを表します。ディレクトリはサポートされていません。
データのエクスポート
空のディレクトリ、ハードリンク、シンボリックリンクは OSS バケットにエクスポートできません。
ファイルの CreateTime、ModifyTime、Ownership、Permission 属性を OSS バケットにエクスportできます。ただし、ChangeTime 属性はエクスポートされません。
CPFS は、OSS バケットのカスタムメタデータにメタデータをエクスポートします。このメタデータは
x-oss-meta-afm-xxxという名前です。このメタデータを削除または変更しないでください。そうしないと、ファイルシステムのメタデータエラーが発生する可能性があります。設定項目
説明
Export File
データフロータスクのディレクトリまたはファイルリストを選択します。
Export Files from CPFS: ディレクトリはスラッシュ (/) で始まり、スラッシュ (/) で終わる必要があり、CPFS ファイルシステム内のディレクトリのパスである必要があります。
Export Listed Files: ファイル内の各行は、CPFS ファイルシステム内のファイルのパスを表します。 ディレクトリはサポートされていません。
データの削除
構成項目
説明
Delete File
データフロータスクのディレクトリまたはファイルリストを選択します。
Delete Files from CPFS: ディレクトリはスラッシュ (/) で始まり、スラッシュで終わる必要があります。
Delete Listed Files: ファイルの各行は、CPFS ファイルシステム内のファイルのパスを表します。ディレクトリはサポートされていません。
構成を確認し、OK をクリックします。
説明指定されたデータフロータスクが実行中の場合、そのデータフローの自動データ更新タスクは一時停止されます。
タスクレポートの表示
NAS コンソールにログインします。
左側のナビゲーションウィンドウで、ファイルシステム > ファイルシステムリスト を選択します。
上部のナビゲーションバーで、リージョンを選択します。
ファイルシステムリスト ページで、ファイルシステムの名前をクリックします。
ファイルシステムの詳細ページで、Dataflow をクリックします。
Dataflow タブで、ターゲットデータフローを見つけ、[操作] 列の タスク管理 をクリックします。
タスク管理 パネルで、レポートを表示するタスクを見つけ、[操作] 列の を選択します。
ターゲットタスクレポートの完全なパスを取得してダウンロードします。
説明タスクレポートはユーザータスクに対してのみ生成されます。システムタスクはタスクレポートを生成しません。
ユーザータスクが完了した後、タスクレポートを表示できます。レポートは CPFS ファイルシステムの .dataflow_report ディレクトリに保存されます。
次のコードは、タスクレポートのサンプルを示しています。
SUMMARY,dataflowId,taskId,userId,fsId,startDate,endData,total,succ,skip,failed,throughput_MBps FILE,path,status,size SUMMARY,df-0001,task-0001,1001,cpfs-1234,1632477577,1632477677,18,10,1,7,0.01 FILE,test1/object1,cached,131072 FILE,test1/object2,cached,131072カテゴリ
フィールド
説明
タスク統計 (SUMMARY)
dataflowId
データフロー ID。
taskId
タスク ID。
userId
ユーザー ID。
fsId
ファイルシステム ID。
startDate
タスクの開始時刻 (エポックからの秒数)。
endDate
タスクの終了時刻 (エポックからの秒数)。
total
タスクによって処理されたファイルの総数。
succ
正常に処理されたファイルの数。
skip
スキップされたファイルの数。たとえば、インポートタスクですでにインポートされていたファイルなど。
failed
処理に失敗したファイルの数。
throughput_MBps
タスク実行中の平均スループット (MB/s)。
ファイル情報 (FILE)
path
ファイルセット内のファイルのパス。
status
ファイルステータス。
cached: ファイルはインポートまたはエクスポートされます。
uncached: ファイルはインポートされません。
dirty: ファイルは CPFS ファイルシステム上で変更されましたが、エクスポートされていません。
NA: ファイルが存在しません。
size
ファイルサイズ (バイト)。
関連操作
操作 | 説明 | 手順 |
タスクの表示 | コンソールでデータフロータスクの構成と実行ステータスを表示できます。 |
|
タスクのキャンセル | コンソールで実行中のデータフロータスクをキャンセルできます。 |
|
タスクのコピー | 完了したタスクをコピーして再度実行できます。 |
|
> [レポート]