すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:ストレージ

最終更新日:Jan 11, 2025

このトピックでは、サポートされているディスクロールとディスクタイプ、およびオブジェクトストレージサービス (OSS) を含む、E-MapReduce (EMR) クラスタのデータストレージについて説明します。

背景情報

ストレージタイプ、ストレージパフォーマンス、およびストレージの制限の詳細については、「ブロックストレージの概要」をご参照ください。

ストレージ価格:

説明 実際の価格は、クラスタを購入する際にコンソールに表示されます。

異なる PL の ESSD の価格設定については、Elastic Compute Service ページの [価格設定] タブをご参照ください。

ディスクロール

EMR クラスタの各ノードには、システムディスクとデータディスクの 2 つのディスクロールがあります。ディスクは、構成、タイプ、および容量が異なる場合があります。
ディスクロール説明
システムディスクオペレーティングシステムがインストールされているディスク。

デフォルトでは、EMR クラスタのノードは、システムディスクとして拡張 SSD を使用します。デフォルトでは、各ノードに 1 つのシステムディスクがあります。

データディスクデータの保存に使用されるディスク。

デフォルトでは、EMR クラスタのマスターノードは 1 つのクラウドディスクをデータディスクとして使用し、EMR クラスタの各コアノードは 4 つのクラウドディスクをデータディスクとして使用します。

クラウドディスクとローカルディスク

EMR クラスタでは、クラウドディスクとローカルディスクを使用してデータを保存できます。次の表に、さまざまなタイプのディスクを示します。

ディスクタイプ説明シナリオ
クラウドディスククラウドディスクには、標準 SSD、ウルトラディスク、および拡張 SSD が含まれます。

クラウドディスクは、ローカルコンピューティングノードに直接接続されていません。代わりに、これらのディスクはネットワーク経由でリモートストレージノードにアクセスします。各データには、バックエンドに 2 つのリアルタイムレプリカがあります。ディスクの損傷によりデータが破損した場合、EMR はレプリカを使用してデータを自動的に復元します。

クラウドディスクは、ローカルディスクよりも IOPS とスループットが低くなります。ビジネスデータの量がテラバイトレベル未満の場合は、クラウドディスクを使用することをお勧めします。
説明 クラウドディスクのスループットが不十分な場合は、新しいクラスタを作成してローカルディスクを使用できます。
ローカルディスク

ローカルディスクはコンピューティングノードに直接接続されており、クラウドディスクよりもパフォーマンスが優れています。ローカルディスクの数は変更できません。バックエンドにデータバックアップメカニズムはデプロイされておらず、データの信頼性を確保するには上位層ソフトウェアが必要です。

ローカルディスクは、データの一部をキャッシュする必要がある場合、一時的なテストが必要な場合、および 3 レプリカメカニズムに基づいてテラバイトのデータを保存する必要がある場合に使用されます。ローカルディスクは運用コストを増加させます。OSS または OSS-HDFS を使用してデータを保存することをお勧めします。OSS-HDFS を有効にする方法の詳細については、「OSS-HDFS の有効化」をご参照ください。

EMR クラスタ内のノードが解放されると、すべてのクラウドディスクとローカルディスクのデータが消去されます。ディスクを個別に保持して再利用することはできません。Hadoop HDFS は、すべてのデータディスクをデータストレージに使用します。Hadoop YARN は、すべてのデータディスクを計算用の一時ストレージとして使用します。

OSS

OSS は、EMR クラスタで HDFS として使用できます。元々 HDFS にアクセスするために使用されていたコードを変更することで、OSS からデータを読み取ったり、OSS にデータを書き込んだりできます。例:
  • HDFS からデータを読み取ります。
    sc.textfile("hdfs://bucket/path")
  • ストレージタイプを HDFS から OSS に変更します。
    sc.textfile("oss://bucket/path")
  • MapReduce または Hive ジョブでは、HDFS コマンドを実行して OSS のデータを管理できます。例:
    hadoop fs -ls oss://bucket/path
    hadoop fs -cp hdfs://bucket/path  oss://bucket/path

    コマンドを実行するときに、AccessKey ペアまたは OSS のエンドポイントを入力する必要はありません。EMR は、クラスタ所有者のデータを使用して情報を補完します。ただし、OSS は、Spark Streaming や HBase シナリオなど、高い IOPS が必要なシナリオには適していません。