リージョンとストレージの選択は、E-MapReduce (EMR) クラスターを作成する前に実施する最も重要な判断事項の 2 つです。適切なリージョンを選択することで、クロスリージョン転送コストを回避し、レイテンシーを低減できます。また、適切なストレージアーキテクチャを選択することで、クラスターのスケーリング方法、コスト、およびクラスター終了後のデータ存続性が決まります。
リージョンの選択
EMR クラスターは、ご利用のデータと同じリージョンにデプロイしてください。たとえば、ソースデータが中国 (上海) の Object Storage Service (OSS) バケットまたは ApsaraDB RDS インスタンスに格納されている場合、クラスターも中国 (上海) で作成します。また、出力結果を OSS に書き込む場合も、そのバケットは同じリージョンに作成してください。クラスターとデータを同一リージョンに配置することで、クロスリージョン転送料金が発生せず、レイテンシーも低減されます。
データのローカリティに加え、リージョン選択時には以下の要素も検討してください。
| 要素 | 確認事項 |
|---|---|
| EMR サービスの可用性 | EMR が該当するリージョンで利用可能であることを確認します。OSS-HDFS や Data Lake Formation (DLF) などの一部のサービスは、すべてのリージョンで利用可能ではありません。ローカル SSD を搭載したインスタンスタイプもリージョンごとに異なります。 |
| ECS インスタンスの価格 | Elastic Compute Service (ECS) インスタンスの価格はリージョンごとに異なります。契約前にコストを比較するには、ECS 価格電卓をご利用ください。 |
| サービストポロジー | Virtual Private Cloud (VPC)、Server Load Balancer (SLB)、データベースなど、EMR が依存するサービスと同一リージョンに EMR を配置することで、クロスリージョン操作料金を回避できます。ハイブリッドクラウドデプロイの場合は、データセンターのアクセスポイントに最も近いリージョンを選択してください。 |
対応リージョン
| 地理 | リージョン |
|---|---|
| アジア太平洋 - 中国 | 中国 (杭州)、中国 (上海)、中国 (青島)、中国 (北京)、中国 (張家口)、中国 (フフホト)、中国 (ウランチャブ)、中国 (深セン)、中国 (成都)、中国 (香港) |
| アジア太平洋 - その他 | 日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ) |
| ヨーロッパ・アメリカ | ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、米国 (バージニア) |
| 中東 | UAE (ドバイ) |
ストレージの計画
ストレージアーキテクチャの選択
EMR では、コンピュートとストレージの分離(Compute-storage separation)および統合(Compute-storage integration)の 2 種類のストレージアーキテクチャをサポートしています。
HDFS は一時的なストレージです。EMR クラスターがリリースされると、HDFS に保存されたすべてのデータは完全に削除されます。HDFS を使用する場合は、クラスターのリリース前に重要データを OSS または OSS-HDFS へバックアップしてください。
| コンピュートとストレージの分離(OSS-HDFS または OSS) | コンピュートとストレージの統合(HDFS) | |
|---|---|---|
| 適用シーン | データレイクアーキテクチャ、コールドデータ分析 | 低レイテンシーでの読み取り/書き込みが必要な場合 |
| データ永続性 | クラスターがリリースされた後もデータは保持されます | クラスターがリリースされるとデータは削除されます |
| データ耐久性 | 99.9999999999 %(12 nines) | レプリカメカニズムに依存;クロスリージョンディザスタリカバリ非対応 |
| データ信頼性 | OSS はローカル冗長ストレージ(LRS)およびゾーン冗長ストレージ(ZRS)をサポートしており、ゾーン間の高信頼性を実現します | ローカルディスクでは 3 レプリカ、クラウドディスクでは 2 レプリカを採用;レプリカはクラスター内に限定されます |
| スケーリング | ストレージに影響を与えることなく、コンピュートノード(CN)を独立して追加できます | コンピュートとストレージを同時にスケーリングする必要があります;ノード削除時は順次実行され、リバランスが必要です |
| ストレージコスト | USD 0.0170 / GB・月(OSS 標準ストレージ)。OSS-HDFS を使用すると補助データが生成されるため、追加の OSS ストレージ料金が発生します。詳細については、「OSS 課金」およびOSS 価格表をご参照ください。 | USD 0.051 / GiB・月。詳細については、「EBS ブロックストレージ課金」およびECS 価格表をご参照ください。 |
| O&M | CN はステートレスであり、迅速に置き換え可能;ストレージ容量は手動によるクラスター調整なしで拡張可能です | DataNode の障害発生時に手動リバランスが必要;クラスターのサイズ変更には手動介入が必要です |
| アクセス方法 | oss://bucket-name.endpoint/path/to/data。詳細については、「クイックスタート」をご参照ください。 |
HA クラスター: hdfs://namespace/path;非 HA クラスター: hdfs://namenode-host:port/path |
ディスクタイプの選択
EMR クラスター内の各ノードには、システムディスクが 1 台必須で、オプションとして 1 台以上のデータディスクを設定できます。
| ディスク | 用途 | 対応タイプ |
|---|---|---|
| システムディスク | オペレーティングシステムをインストールし、ビジネスデータは保存しません。 | クラウドディスクのみ |
| データディスク | データ、ローカルログ、シャッフルデータを格納するためのディスク | クラウドディスクおよびローカルディスク |
同一ストレージ容量において、複数のデータディスクを構成することで、サービスの可用性を向上させることができます。複数のデータディスクを構成した場合、特定のサービスはフォールトトレランス機能を提供し、ディスク障害発生時にもデータディスク全体の機能に影響を与えません。
クラウドディスク
クラウドディスクは分散三重化メカニズムを採用し、99.9999999 %(9 nines)のデータ信頼性を提供します。EMR では、以下の 3 種類のクラウドディスクをサポートしています。
| ディスクタイプ | レイテンシー | IOPS およびスループット | 適用シーン |
|---|---|---|---|
| ESSD | 0.2 ms | 高い;パフォーマンスレベル PL0~PL3 をサポート。詳細については、「ESSD」をご参照ください。 | レイテンシーに敏感なワークロードまたは I/O 集約型ワークロード:大規模 OLTP データベース、NoSQL データベース、Elasticsearch |
| 標準 SSD | 0.5~2 ms | 比較的高い | I/O 集約型アプリケーション;小規模から中規模のリレーショナルデータベースおよび NoSQL データベース |
| Ultra ディスク | 1~3 ms | 中程度 | 開発およびテスト環境;システムディスク |
クラウドディスクおよびローカルディスクのパフォーマンス比較の詳細については、「ブロックストレージパフォーマンス」をご参照ください。
ローカルディスク
ローカルディスクはホストサーバーに物理的に接続されており、大規模データストレージ向けに極めて低いレイテンシーと高いスループットを提供します。
EMR コンソールでは、ノードグループのタイプをビッグデータまたはローカル SSDに設定すると、ローカルディスクがアタッチされます。
ローカルディスクは、コアノードおよびタスクノードでのみサポートされており、マスターノードではサポートされていません。
ホストハードウェアの障害発生時にローカルディスク上のデータが失われる可能性があります。ビジネスデータをローカルディスクに格納する場合は、バックアップポリシーを設定してください。
ストレージ容量の評価
ストレージアーキテクチャを選択した後は、データ量および成長トレンドに基づいて必要なディスク容量を見積もります。少なくとも 6 か月分のデータ成長を見込んで計画してください。
| データタイプ | 説明 | 計算式 |
|---|---|---|
| 生データ | ログなど、業務から直接生成されるデータ | 必要容量 = 生データ量 |
| 中間データ | ETL 処理結果など、処理中に一時的に生成されるデータ | 必要容量 = 生データ量 × 1.5(ワークロードの複雑度に応じて調整) |
| 結果データ | 保持が必要な最終出力データ | 必要容量 = 生データ量 × 10 %~50 %(保持要件に応じて調整) |
コンピュートとストレージの統合(HDFS):合計容量にレプリカオーバーヘッドを加算します。HDFS では、ローカルディスクに対してデフォルトで 3 レプリカ、クラウドディスクに対しては 2 レプリカが設定されます。
コンピュートとストレージの分離(OSS-HDFS または OSS):データディスクは、一時的なコンピュート結果、ローカルログ、シャッフルデータを収容するだけで十分です。ビジネスデータは OSS に耐久的に保存されます。