ノードには 2 種類のディスクがあります。オペレーティングシステムのインストールに使用されるシステムディスクと、データの格納に使用されるデータディスクです。

通常、ノードにはデフォルトで 1 つのシステムディスクがあります。これはクラウドディスクである必要があります。 ただし、データディスクは複数にすることができます (現在、単一ノードに最大 16 個)。 各データディスクは、種類や容量を違ったものにするなど、さまざまな設定にすることができます。 E-MapReduce では、クラスターのシステムディスクはデフォルトで SSD クラウドディスクであり、4 つがデフォルトで使用されます。 現在のイントラネット帯域幅を考慮すると、この 4 つのクラウドディスクのデフォルト構成で十分です。

クラウドと一時ディスク

データ保存用に 2 種類のディスクがあります。
  • クラウドディスク

    SSD 、ウルトラ、ベーシッククラウドディスクを含みます。

    クラウドディスクは、ローカルコンピューティングノードに直接接続されていません。 代わりに、ネットワークを介してリモートストレージノードにアクセスします。 各データには、バックエンドに 2 つのリアルタイムバックアップがあります。つまり、合計 3 つの同一コピーがあります。 (ディスクが破損したために) いずれかが破損した場合は、バックアップがリカバリに自動的に使用されます。

  • 一時ディスク

    ビッグデータタイプの一時的な SATA ディスクと、一時的な SSD タイプで使用される一時的な SSD ディスクが含まれます。

    一時ディスクはコンピューティングノードに直接接続されており、クラウドディスクよりも優れたパフォーマンスを発揮します。 一時ディスクの数を変更することはできません。 オフラインの物理ホストと同様に、バックエンドにデータのバックアップはありません。つまり、データの信頼性を保証するためには上位層のソフトウェアが必要です。

使用シナリオ

一時ディスクの数を変更することはできません。 ディスクを個別に保持して再利用することもできません。 Hadoop HDFS はすべてのデータディスクをデータストレージに使用します。 Hadoop YARN は、コンピューティング用のオンデマンドデータストレージとして、すべてのデータディスクを使用します。

大量のデータ (TB レベル以下) がない場合は、IOPS とスループットがローカルディスクよりも小さいため、クラウドディスクを使用できます。 ディスクを個別に保持して再利用することもできません。 スループットが不十分な場合は、一時ディスクに切り替えます。

OSS

OSS は E-MapReduce で HDFS として使用することができ、 OSS への読み書きアクセスを容易にすることができます。 HDFS を使用するすべてのコードは、 OSS 上のデータにアクセスするように簡単に変更することもできます。 以下にいくつかの例を示します。

Spark からデータを読む
sc.Textfile("hdfs://user/path")
HDFS から OSS にストレージタイプを変更
sc.Textfile("oss://user/path")

これは、Map Reduce ジョブでも Hive ジョブでも同じです。

HDFS コマンドは OSS データを直接処理します。
hadoop fs -ls oss://bucket/path
hadoop fs -cp hdfs://user/path  oss://bucket/path

このプロセスでは、AK もエンドポイントも入力する必要はありません。 E-MapReduce は、現在のクラスター所有者を使って情報を自動的に完成します。

ただし、 OSS には高い IOPS がないため、 Spark Streaming や HBase など、高い IOPS を必要とする使用シナリオには適していません。