ストレージ - E-MapReduce - Alibaba Cloud ドキュメントセンター

このトピックでは、サポートされているディスクロールとディスクタイプ、およびオブジェクトストレージサービス (OSS) を含む、E-MapReduce (EMR) クラスタのデータストレージについて説明します。

背景情報

ストレージタイプ、ストレージパフォーマンス、およびストレージの制限の詳細については、「ブロックストレージの概要」をご参照ください。

ストレージ価格:

説明実際の価格は、クラスタを購入する際にコンソールに表示されます。

異なる PL の ESSD の価格設定については、Elastic Compute Service ページの [価格設定] タブをご参照ください。

ディスクロール

EMR クラスタの各ノードには、システムディスクとデータディスクの 2 つのディスクロールがあります。ディスクは、構成、タイプ、および容量が異なる場合があります。

ディスクロール	説明
システムディスク	オペレーティングシステムがインストールされているディスク。デフォルトでは、EMR クラスタのノードは、システムディスクとして拡張 SSD を使用します。デフォルトでは、各ノードに 1 つのシステムディスクがあります。
データディスク	データの保存に使用されるディスク。デフォルトでは、EMR クラスタのマスターノードは 1 つのクラウドディスクをデータディスクとして使用し、EMR クラスタの各コアノードは 4 つのクラウドディスクをデータディスクとして使用します。

クラウドディスクとローカルディスク

EMR クラスタでは、クラウドディスクとローカルディスクを使用してデータを保存できます。次の表に、さまざまなタイプのディスクを示します。

ディスクタイプ	説明	シナリオ
クラウドディスク	クラウドディスクには、標準 SSD、ウルトラディスク、および拡張 SSD が含まれます。クラウドディスクは、ローカルコンピューティングノードに直接接続されていません。代わりに、これらのディスクはネットワーク経由でリモートストレージノードにアクセスします。各データには、バックエンドに 2 つのリアルタイムレプリカがあります。ディスクの損傷によりデータが破損した場合、EMR はレプリカを使用してデータを自動的に復元します。	クラウドディスクは、ローカルディスクよりも IOPS とスループットが低くなります。ビジネスデータの量がテラバイトレベル未満の場合は、クラウドディスクを使用することをお勧めします。説明クラウドディスクのスループットが不十分な場合は、新しいクラスタを作成してローカルディスクを使用できます。
ローカルディスク	ローカルディスクはコンピューティングノードに直接接続されており、クラウドディスクよりもパフォーマンスが優れています。ローカルディスクの数は変更できません。バックエンドにデータバックアップメカニズムはデプロイされておらず、データの信頼性を確保するには上位層ソフトウェアが必要です。	ローカルディスクは、データの一部をキャッシュする必要がある場合、一時的なテストが必要な場合、および 3 レプリカメカニズムに基づいてテラバイトのデータを保存する必要がある場合に使用されます。ローカルディスクは運用コストを増加させます。OSS または OSS-HDFS を使用してデータを保存することをお勧めします。OSS-HDFS を有効にする方法の詳細については、「OSS-HDFS の有効化」をご参照ください。

EMR クラスタ内のノードが解放されると、すべてのクラウドディスクとローカルディスクのデータが消去されます。ディスクを個別に保持して再利用することはできません。Hadoop HDFS は、すべてのデータディスクをデータストレージに使用します。Hadoop YARN は、すべてのデータディスクを計算用の一時ストレージとして使用します。

OSS

OSS は、EMR クラスタで HDFS として使用できます。元々 HDFS にアクセスするために使用されていたコードを変更することで、OSS からデータを読み取ったり、OSS にデータを書き込んだりできます。例：

HDFS からデータを読み取ります。
```
sc.textfile("hdfs://bucket/path")
```
ストレージタイプを HDFS から OSS に変更します。
```
sc.textfile("oss://bucket/path")
```
MapReduce または Hive ジョブでは、HDFS コマンドを実行して OSS のデータを管理できます。例：
```
hadoop fs -ls oss://bucket/path
hadoop fs -cp hdfs://bucket/path  oss://bucket/path
```
コマンドを実行するときに、AccessKey ペアまたは OSS のエンドポイントを入力する必要はありません。EMR は、クラスタ所有者のデータを使用して情報を補完します。ただし、OSS は、Spark Streaming や HBase シナリオなど、高い IOPS が必要なシナリオには適していません。