E-MapReduce (EMR) V3.30 以降、JindoFS は階層型ストレージを提供します。階層型ストレージコマンドを使用すると、ローカルディスクと OSS ストレージクラス間でデータを移動させ、アクセス速度とストレージコストのバランスをとることができます。
すべての階層型ストレージコマンドは非同期です。タスクを送信するとすぐにリターンします。進捗をモニターしたり、完了を待ったりするには、Status コマンドを使用します。
前提条件
-
EMR クラスターバージョン V3.30 以降
ストレージクラス
OSS は 3 種類のストレージクラスを提供します。データへのアクセス頻度に基づいてクラスを選択します:
| ストレージクラス | アクセス速度 | コスト | 最適な用途 |
|---|---|---|---|
| 標準 | 最速 | 最高 | 頻繁にアクセスされるホットデータ |
| 低頻度アクセス (IA) | 高速 | 低 | 月に 1 回未満のアクセス頻度のウォームデータ |
| アーカイブ | 解凍が必要 (最大 1 日) | 最低 | ほとんどアクセスされないコールドデータ |
OSS ストレージクラスの詳細については、「概要」をご参照ください。
ストレージクラスのトランジション
| 差出人 | 宛先 | コマンド |
|---|---|---|
| ローカルディスク | OSS 標準 | uncache |
| ローカルディスク | OSS IA | archive -i |
| ローカルディスク | OSS アーカイブ | archive -a |
| OSS アーカイブ | OSS 標準 | unarchive |
| OSS アーカイブ | OSS IA | unarchive -i |
| OSS アーカイブ | 一時的に読み取り可能 | unarchive -o |
| OSS 標準 | ローカルディスク | cache |
コマンド
Cache
指定したパスのデータをローカルディスクにバックアップします。キャッシュ後は、OSS の代わりにローカルディスクから読み取りが行われます。
jindo jfs -cache -p <path>
| オプション | 説明 |
|---|---|
-p |
ローカルデータをピン留めし、ディスク使用率に基づいて削除されないようにします |
Uncache
指定したパスのローカルディスクバックアップを削除します。データは OSS 標準ストレージにのみ保持されます。
jindo jfs -uncache <path>
Archive
ローカルディスクからデータを OSS 低頻度アクセス (IA) またはアーカイブストレージに移動します。データ移動後、ローカルディスクのバックアップは削除されます。
jindo jfs -archive -i|-a <path>
| オプション | ターゲットストレージクラス |
|---|---|
-i |
低頻度アクセス (IA) |
-a |
アーカイブ |
Unarchive
アーカイブストレージ内のデータを、よりアクセスしやすいストレージクラスに変換するか、または読み取り用に一時的に解凍します。
jindo jfs -unarchive [-i|-o] <path>
| オプション | ターゲットストレージクラス | 注意 |
|---|---|---|
| (なし) | 標準 | デフォルトの動作 |
-i |
低頻度アクセス (IA) | |
-o |
一時的に読み取り可能 | データは 1 日以内に読み取り可能になります。永続的なストレージクラスの変更ではありません。 |
Status
階層型ストレージタスクの進捗を表示します。
jindo jfs -status [-detail|-sync] <path>
| オプション | 動作 |
|---|---|
| (なし) | ディレクトリ内で階層型ストレージの対象となるファイルの数と、階層型ストレージが適用されたデータを表示します |
-detail |
ファイルごとのストレージ進捗を表示します |
-sync |
階層型ストレージタスクが完了するまでブロックし、その後終了します |
すべての階層型ストレージコマンドは非同期であるため、タスクの完了を待ってから次に進む必要があるスクリプトでは -sync を使用します。たとえば、データをアーカイブしてから結果を検証する場合などです。
ls2
指定したパスにあるファイルのストレージクラスを表示します。ls2 コマンドは、標準の Hadoop ls コマンドをストレージクラス列で拡張したものです。
hadoop fs -ls2 <path>
出力例:
drwxrwxrwx - - 0 2020-06-05 04:27 oss://xxxx/warehouse
-rw-rw-rw- 1 Archive 1484 2020-09-23 16:40 oss://xxxx/wikipedia_data.csv
-rw-rw-rw- 1 Standard 1676 2020-06-07 20:04 oss://xxxx/wikipedia_data.json
3 列目は各ファイルのストレージクラスを示します。指定可能な値は Standard、Archive です。
ヘルプの取得
次のコマンドを実行して、階層型ストレージコマンドのヘルプ情報を表示します:
jindo jfs -help archive