Alibaba Cloud E-MapReduce (EMR) では、EMR クラスタのリージョンとストレージ構成は、クラスタのパフォーマンスとコストに直接影響します。適切なリージョンを選択することで、ネットワークレイテンシを削減し、データローカライズの要件を満たし、リソースコストを削減できます。HDFS、Object Storage Service (OSS)、または OSS-HDFS の使用など、適切なストレージ構成を選択することで、データの読み取りと書き込みの効率を向上させ、ストレージコストを削減し、データの信頼性を確保できます。このトピックでは、リージョンを迅速に選択し、ストレージ構成を計画するための戦略と重要な要素について説明します。
リージョン選択戦略
ビジネスと必要なリソースを最適に一致させるために、次の表に記載されている主要な要素に基づいてリージョンを選択できます。
要素 | 説明 |
データローカライズ (優先度が高い) |
|
EMR サービスの可用性 |
|
ECS インスタンスの価格差 | Elastic Compute Service (ECS) インスタンスの価格は、選択したリージョンによって異なります。詳細については、「ECS 料金計算ツール」を参照してください。 |
サービストポロジーの最適化 |
|
EMR をサポートするリージョン:
アジアパシフィック - 中国
中国 (杭州)、中国 (上海)、中国 (青島)、中国 (北京)、中国 (張家口)、中国 (呼和浩特)、中国 (ウランチャブ)、中国 (深圳)、中国 (成都)、中国 (香港)
アジアパシフィック - その他
日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)
ヨーロッパおよびアメリカ
ドイツ (フランクフルト)、英国 (ロンドン)、米国 (シリコンバレー)、米国 (バージニア)
中東
UAE (ドバイ)
ストレージ計画
ストレージアーキテクチャの選択
EMR は、コンピューティングとストレージの分離アーキテクチャとコンピューティングとストレージの統合アーキテクチャをサポートしています。OSS-HDFS と OSS はコンピューティングとストレージの分離アーキテクチャを採用し、HDFS はコンピューティングとストレージの統合アーキテクチャを採用しています。データ要件とコストバジェットに基づいて、ストレージアーキテクチャを選択できます。次の表に、アーキテクチャの違いを示します。
比較項目 | コンピューティングとストレージの分離 (OSS-HDFS または OSS) | コンピューティングとストレージの統合 (HDFS) |
特性 |
| コンピューティングリソースとストレージリソースは統合されており、データは EMR クラスタにデプロイされた HDFS に保存されます。 |
シナリオ |
| 低レイテンシの読み取りと書き込みが必要です。 |
データの信頼性 |
|
|
データの耐久性 |
| EMR クラスタがリリースされると、データは削除されます。 |
スケーリングの柔軟性 | コンピューティングリソースとストレージリソースは分離されています。これにより、計算ノード (CN) を個別に追加できます。 | コンピューティングリソースとストレージリソースは統合されています。そのため、コンピューティングリソースとストレージリソースを同時に調整する必要があります。
|
ストレージコスト (例) | 0.0170 米ドル/GB/月 (OSS 標準ストレージ) 説明
| 0.051 米ドル/GiB/月 説明
|
O&M の複雑さ |
|
|
アクセス方法 |
詳細については、「はじめに」をご参照ください。 |
|
ディスクの選択
EMR は、EMR クラスタのノードにシステムディスクとデータディスクを提供します。
ディスクタイプ | 説明 | |
システムディスク | システムディスクは、オペレーティングシステムのインストールに使用され、ビジネスデータは保存されません。 | |
データディスク | データディスクは、データ、ローカルログ、シャッフルされたデータの保存に使用されます。選択したストレージアーキテクチャに基づいて容量を評価できます。詳細については、「ストレージ容量の評価」をご参照ください。 説明 同じストレージ容量で複数のデータディスクを構成して、サービスの可用性を向上させることができます。複数のデータディスクを構成すると、特定のサービスがフォールトトレランス機能を提供できるようになり、ディスク障害が発生した場合でもデータディスクの全体的な機能に影響はありません。 |
ディスクタイプ
EMR は、データを保存するために次のタイプのディスクを提供します。
クラウドディスク
クラウドディスクは、Alibaba Cloud が ECS に提供するブロックレベルのデータストレージデバイスです。クラウドディスクは、分散三副本メカニズムを使用して、ECS インスタンスの 99.9999999% (9 ナイン) のデータ信頼性を実現します。
クラウドディスクは、ディスクパフォーマンスに基づいて、標準 SSD、Ultra ディスク、拡張 SSD (ESSD) に分類されます。
ディスクタイプ | 特性 | シナリオ |
| レイテンシの影響を受けやすいアプリケーションまたは I/O 集中型のビジネスシナリオ:
| |
標準 SSD |
|
|
Ultra ディスク |
|
|
クラウドディスクとローカルディスクのパフォーマンスについては、「パフォーマンスクラウドディスクとローカルディスクの詳細については、ブロックストレージのパフォーマンス」をご参照ください。
ローカルディスク
ローカルディスクは、ECS インスタンスのローカルストレージを提供し、インスタンスをホストする物理マシン上にあります。ローカルディスクは、大規模データストレージのために高ストレージ I/O パフォーマンスと高い費用対効果を必要とするシナリオに適しています。
シナリオ
EMR コンソールでノードグループを構成する際に、[種類] パラメーターを Big Data または Local SSD に設定すると、データディスクはサーバーに直接接続されている物理的なローカルディスクとなり、非常に低いレイテンシと高いスループットを実現します。
ローカルディスクは、コアノードとタスクノードにのみ適しています。
ローカルディスクをデータディスクとして使用すると、データが失われる可能性があります。ビッグデータを保存するためにローカルディスクを使用する場合は、バックアップポリシーを構成することをお勧めします。
ストレージ容量の評価
ストレージアーキテクチャを選択したら、ビジネスデータの規模と増加傾向に基づいて必要なストレージ容量を評価する必要があります。これにより、ディスク構成がビジネス要件を満たしていることを確認できます。
データタイプ | 説明 | 計算ルール |
生データ | ビジネスによって直接生成される初期データ (ログなど) | 必要な記憶領域 = 生データ量 |
中間データ | 処理中に生成される一時データ (抽出、変換、ロード (ETL) 操作の結果など) | 必要な記憶領域 = 生データ量 × 1.5 (ビジネスの複雑さに応じて調整) |
結果データ | 保存する必要がある最終出力データ | 必要な記憶領域 = 生データ量 × 10% ~ 50% の値 (ビジネス要件に応じて調整) |
必要なストレージ容量を評価する際には、少なくともその後 6 か月間のデータ増加を考慮する必要があります。
コンピューティングとストレージの統合 (HDFS)
生データ、中間データ、結果データ、およびレプリカ冗長性 (デフォルトでは 3 レプリカ) に基づいてデータディスク容量を評価する必要があります。
コンピューティングとストレージの分離 (OSS-HDFS または OSS)
ビジネスデータは OSS に永続的に保存されます。データディスクは、タスクの一時的な計算結果、ローカルログ、およびシャッフルされたデータの保存にのみ使用されます。