このトピックでは、サポートされているディスクロールとディスクタイプ、およびオブジェクトストレージサービス (OSS) を含む、E-MapReduce (EMR) クラスタのデータストレージについて説明します。
背景情報
ストレージタイプ、ストレージパフォーマンス、およびストレージの制限の詳細については、「ブロックストレージの概要」をご参照ください。
ストレージ価格:
異なる PL の ESSD の価格設定については、Elastic Compute Service ページの [価格設定] タブをご参照ください。
ディスクロール
| ディスクロール | 説明 |
| システムディスク | オペレーティングシステムがインストールされているディスク。 デフォルトでは、EMR クラスタのノードは、システムディスクとして拡張 SSD を使用します。デフォルトでは、各ノードに 1 つのシステムディスクがあります。 |
| データディスク | データの保存に使用されるディスク。 デフォルトでは、EMR クラスタのマスターノードは 1 つのクラウドディスクをデータディスクとして使用し、EMR クラスタの各コアノードは 4 つのクラウドディスクをデータディスクとして使用します。 |
クラウドディスクとローカルディスク
EMR クラスタでは、クラウドディスクとローカルディスクを使用してデータを保存できます。次の表に、さまざまなタイプのディスクを示します。
| ディスクタイプ | 説明 | シナリオ |
| クラウドディスク | クラウドディスクには、標準 SSD、ウルトラディスク、および拡張 SSD が含まれます。 クラウドディスクは、ローカルコンピューティングノードに直接接続されていません。代わりに、これらのディスクはネットワーク経由でリモートストレージノードにアクセスします。各データには、バックエンドに 2 つのリアルタイムレプリカがあります。ディスクの損傷によりデータが破損した場合、EMR はレプリカを使用してデータを自動的に復元します。 | クラウドディスクは、ローカルディスクよりも IOPS とスループットが低くなります。ビジネスデータの量がテラバイトレベル未満の場合は、クラウドディスクを使用することをお勧めします。 説明 クラウドディスクのスループットが不十分な場合は、新しいクラスタを作成してローカルディスクを使用できます。 |
| ローカルディスク | ローカルディスクはコンピューティングノードに直接接続されており、クラウドディスクよりもパフォーマンスが優れています。ローカルディスクの数は変更できません。バックエンドにデータバックアップメカニズムはデプロイされておらず、データの信頼性を確保するには上位層ソフトウェアが必要です。 | ローカルディスクは、データの一部をキャッシュする必要がある場合、一時的なテストが必要な場合、および 3 レプリカメカニズムに基づいてテラバイトのデータを保存する必要がある場合に使用されます。ローカルディスクは運用コストを増加させます。OSS または OSS-HDFS を使用してデータを保存することをお勧めします。OSS-HDFS を有効にする方法の詳細については、「OSS-HDFS の有効化」をご参照ください。 |
EMR クラスタ内のノードが解放されると、すべてのクラウドディスクとローカルディスクのデータが消去されます。ディスクを個別に保持して再利用することはできません。Hadoop HDFS は、すべてのデータディスクをデータストレージに使用します。Hadoop YARN は、すべてのデータディスクを計算用の一時ストレージとして使用します。
OSS
- HDFS からデータを読み取ります。
sc.textfile("hdfs://bucket/path") - ストレージタイプを HDFS から OSS に変更します。
sc.textfile("oss://bucket/path") - MapReduce または Hive ジョブでは、HDFS コマンドを実行して OSS のデータを管理できます。例:
hadoop fs -ls oss://bucket/path hadoop fs -cp hdfs://bucket/path oss://bucket/pathコマンドを実行するときに、AccessKey ペアまたは OSS のエンドポイントを入力する必要はありません。EMR は、クラスタ所有者のデータを使用して情報を補完します。ただし、OSS は、Spark Streaming や HBase シナリオなど、高い IOPS が必要なシナリオには適していません。