すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:リージョンを選択し、ストレージ構成を計画する

最終更新日:May 14, 2025

Alibaba Cloud E-MapReduce (EMR) では、EMR クラスタのリージョンとストレージ構成は、クラスタのパフォーマンスとコストに直接影響します。適切なリージョンを選択することで、ネットワークレイテンシを削減し、データローカライズの要件を満たし、リソースコストを削減できます。HDFS、Object Storage Service (OSS)、または OSS-HDFS の使用など、適切なストレージ構成を選択することで、データの読み取りと書き込みの効率を向上させ、ストレージコストを削減し、データの信頼性を確保できます。このトピックでは、リージョンを迅速に選択し、ストレージ構成を計画するための戦略と重要な要素について説明します。

リージョン選択戦略

ビジネスと必要なリソースを最適に一致させるために、次の表に記載されている主要な要素に基づいてリージョンを選択できます。

要素

説明

データローカライズ (優先度が高い)

  • クラスタのリージョンは、データを保存するデータソースのリージョンと同じにすることをお勧めします。たとえば、データソースは OSS または ApsaraDB RDS にすることができます。

  • 推奨理由:

    • ネットワークコストの削減: リージョン間のデータ転送には追加料金が発生します。

    • レイテンシの削減: クラスタをローカルにデプロイすることで、データの読み取りと書き込みの効率を向上させることができます。

EMR サービスの可用性

  • EMR コンソールで、目的のリージョンで EMR が利用可能かどうかを確認します。

  • 必要なクラウドサービスが目的のリージョンで利用可能かどうかを確認します。たとえば、OSS-HDFS や Data Lake Formation (DLF) は特定のリージョンでは利用できません。

  • 必要なインスタンスタイプが目的のリージョンで利用可能かどうかを確認します。たとえば、ローカル SSD を搭載したインスタンスタイプは特定のリージョンでのみ利用可能です。

ECS インスタンスの価格差

Elastic Compute Service (ECS) インスタンスの価格は、選択したリージョンによって異なります。詳細については、「ECS 料金計算ツール」を参照してください。

サービストポロジーの最適化

  • ハイブリッドクラウドシナリオ: ネットワークレイテンシを削減するために、データセンターのアクセスポイントに最も近いリージョンを選択することをお勧めします。

  • マルチサービス連携: リージョン間の操作による料金の発生を抑えるために、EMR を Virtual Private Cloud (VPC)、Server Load Balancer (SLB)、データベースサービスなどの特定のサービスと同じリージョンにデプロイしてください。

EMR をサポートするリージョン:

  • アジアパシフィック - 中国

    中国 (杭州)、中国 (上海)、中国 (青島)、中国 (北京)、中国 (張家口)、中国 (呼和浩特)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)

  • アジアパシフィック - その他

    日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)

  • ヨーロッパおよびアメリカ

    ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)

  • 中東

    UAE (ドバイ)

ストレージ計画

ストレージアーキテクチャの選択

EMR は、コンピューティングとストレージの分離アーキテクチャとコンピューティングとストレージの統合アーキテクチャをサポートしています。OSS-HDFS と OSS はコンピューティングとストレージの分離アーキテクチャを採用し、HDFS はコンピューティングとストレージの統合アーキテクチャを採用しています。データ要件とコストバジェットに基づいて、ストレージアーキテクチャを選択できます。次の表に、アーキテクチャの違いを示します。

比較項目

コンピューティングとストレージの分離 (OSS-HDFS または OSS)

コンピューティングとストレージの統合 (HDFS)

特性

  • コンピューティングリソースとストレージリソースを個別にスケーリングでき、データは OSS-HDFS または OSS に永続的に保存されます。

  • OSS-HDFS と OSS は HDFS API と完全に互換性があります。これにより、データをシームレスに移行して使用できます。

コンピューティングリソースとストレージリソースは統合されており、データは EMR クラスタにデプロイされた HDFS に保存されます。

シナリオ

  • データレイクアーキテクチャが使用されます。

  • コールドデータ分析が必要です。

低レイテンシの読み取りと書き込みが必要です。

データの信頼性

  • OSS は、ローカル冗長ストレージ (LRS) とゾーン冗長ストレージ (ZRS) をサポートし、ゾーン間の高い信頼性を提供します。

  • クラウドストレージは、データ損失のリスクを大幅に削減できます。

  • このアーキテクチャはレプリカメカニズムに依存しています。デフォルトでは、ローカルディスクには 3 つのレプリカが構成され、クラウドディスクには 2 つのレプリカが構成されます。レプリカはクラスタ内でのみ構成でき、リージョン間のディザスタリカバリ機能は提供されていません。

  • ハードウェア障害によりデータが失われる可能性があります。

データの耐久性

  • 99.9999999999% (12 ナイン) のデータ耐久性が提供されます。

  • EMR クラスタがリリースされた後も、データは長期間保持されます。

EMR クラスタがリリースされると、データは削除されます。

スケーリングの柔軟性

コンピューティングリソースとストレージリソースは分離されています。これにより、計算ノード (CN) を個別に追加できます。

コンピューティングリソースとストレージリソースは統合されています。そのため、コンピューティングリソースとストレージリソースを同時に調整する必要があります。

  • ノードは 1 つずつ削除する必要があるため、時間がかかります。

  • EMR クラスタをスケールアウトする際にはリバランスが必要になり、リソースと時間が消費されます。

ストレージコスト (例)

0.0170 米ドル/GB/月 (OSS 標準ストレージ)

説明
  • OSS-HDFS は、ユーザーデータに加えて補助データも生成するため、OSS ストレージ料金が追加で発生します。詳細については、「OSS-HDFS のストレージ容量の使用量」をご参照ください。

  • OSS の課金項目については、「課金」をご参照ください。

  • OSS の価格については、「Object Storage Service (OSS)」を参照してください。

0.051 米ドル/GiB/月

説明

O&M の複雑さ

  • CN はステートレスであるため、障害発生時に迅速に置き換えることができます。

  • データ規模の増加に合わせてクラスタサイズを手動で調整する必要がなく、ストレージ容量を無限に拡張できます。

  • DataNode に障害が発生した場合は、手動でデータをリバランスする必要があります。

  • スケーリング中は、クラスタサイズを手動で調整する必要があります。

アクセス方法

oss://bucket-name.endpoint/path/to/data を使用して、OSS または OSS-HDFS にアクセスできます。

詳細については、「はじめに」をご参照ください。

  • hdfs://namespace/path を使用して、高可用性 (HA) クラスタの HDFS にアクセスできます。

  • hdfs://namenode-host:port/path を使用して、非 HA クラスタの HDFS にアクセスできます。

ディスクの選択

EMR は、EMR クラスタのノードにシステムディスクとデータディスクを提供します。

ディスクタイプ

説明

サポートされているディスクタイプ

システムディスク

システムディスクは、オペレーティングシステムのインストールに使用され、ビジネスデータは保存されません。

クラウドディスク

データディスク

データディスクは、データ、ローカルログ、シャッフルされたデータの保存に使用されます。選択したストレージアーキテクチャに基づいて容量を評価できます。詳細については、「ストレージ容量の評価」をご参照ください。

説明

同じストレージ容量で複数のデータディスクを構成して、サービスの可用性を向上させることができます。複数のデータディスクを構成すると、特定のサービスがフォールトトレランス機能を提供できるようになり、ディスク障害が発生した場合でもデータディスクの全体的な機能に影響はありません。

ディスクタイプ

EMR は、データを保存するために次のタイプのディスクを提供します。

クラウドディスク

クラウドディスクは、Alibaba Cloud が ECS に提供するブロックレベルのデータストレージデバイスです。クラウドディスクは、分散三副本メカニズムを使用して、ECS インスタンスの 99.9999999% (9 ナイン) のデータ信頼性を実現します。

クラウドディスクは、ディスクパフォーマンスに基づいて、標準 SSD、Ultra ディスク、拡張 SSD (ESSD) に分類されます。

ディスクタイプ

特性

シナリオ

ESSD

  • 高 IOPS とスループット

  • ミリ秒レベルのレイテンシ (0.2 ミリ秒)

  • 高信頼性

  • PL0 から PL3 までの複数のパフォーマンスレベルのサポートPL0 から PL3 まで

    説明

    ESSD のパフォーマンスレベルの詳細については、「ESSD」をご参照ください。

レイテンシの影響を受けやすいアプリケーションまたは I/O 集中型のビジネスシナリオ:

  • 大規模オンライントランザクション処理 (OLTP) データベース

  • NoSQL データベース

  • Elasticsearch 分散ログ

標準 SSD

  • 比較的高 IOPS とスループット

  • 0.5 ~ 2 ミリ秒のミリ秒レベルのレイテンシ0.5~2 ミリ秒

  • 高信頼性

  • I/O 集中型アプリケーション

  • 中小規模のリレーショナルデータベースと NoSQL データベース

Ultra ディスク

  • IOPS とスループット

  • 1 ~ 3 ミリ秒のミリ秒レベルのレイテンシ

  • 高信頼性

  • 開発とテスト

  • システムディスクとして使用

説明

クラウドディスクとローカルディスクのパフォーマンスについては、「パフォーマンスクラウドディスクとローカルディスクの詳細については、ブロックストレージのパフォーマンス」をご参照ください。

ローカルディスク

ローカルディスクは、ECS インスタンスのローカルストレージを提供し、インスタンスをホストする物理マシン上にあります。ローカルディスクは、大規模データストレージのために高ストレージ I/O パフォーマンスと高い費用対効果を必要とするシナリオに適しています。

シナリオ

EMR コンソールでノードグループを構成する際に、[種類] パラメーターを Big Data または Local SSD に設定すると、データディスクはサーバーに直接接続されている物理的なローカルディスクとなり、非常に低いレイテンシと高いスループットを実現します。

説明
  • ローカルディスクは、コアノードとタスクノードにのみ適しています。

  • ローカルディスクをデータディスクとして使用すると、データが失われる可能性があります。ビッグデータを保存するためにローカルディスクを使用する場合は、バックアップポリシーを構成することをお勧めします。

ストレージ容量の評価

ストレージアーキテクチャを選択したら、ビジネスデータの規模と増加傾向に基づいて必要なストレージ容量を評価する必要があります。これにより、ディスク構成がビジネス要件を満たしていることを確認できます。

データタイプ

説明

計算ルール

生データ

ビジネスによって直接生成される初期データ (ログなど)

必要な記憶領域 = 生データ量

中間データ

処理中に生成される一時データ (抽出、変換、ロード (ETL) 操作の結果など)

必要な記憶領域 = 生データ量 × 1.5 (ビジネスの複雑さに応じて調整)

結果データ

保存する必要がある最終出力データ

必要な記憶領域 = 生データ量 × 10% ~ 50% の値 (ビジネス要件に応じて調整)

必要なストレージ容量を評価する際には、少なくともその後 6 か月間のデータ増加を考慮する必要があります。

  • コンピューティングとストレージの統合 (HDFS)

    生データ、中間データ、結果データ、およびレプリカ冗長性 (デフォルトでは 3 レプリカ) に基づいてデータディスク容量を評価する必要があります。

  • コンピューティングとストレージの分離 (OSS-HDFS または OSS)

    ビジネスデータは OSS に永続的に保存されます。データディスクは、タスクの一時的な計算結果、ローカルログ、およびシャッフルされたデータの保存にのみ使用されます。