すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:クラスターの作成

最終更新日:Jan 28, 2026

Alibaba Cloud E-MapReduce (EMR) は、Hadoop、Spark、Hive、Presto などのオープンソースのビッグデータフレームワークを構築・実行し、大規模なデータ処理と分析を支援します。このトピックでは、EMR on ECS クラスターの作成方法と、ビッグデータクラスターを迅速にセットアップ・管理するために必要な設定について説明します。

説明

2022年12月19日 17:00 (UTC+8) 以降に初めて EMR クラスターを作成する場合、Hadoop、Data Science、Presto、または Zookeeper のクラスタータイプは選択できません。

前提条件

RAM の権限付与が完了していること。詳細については、「Alibaba Cloud アカウントのロール権限付与」をご参照ください。

注意事項

EMR 5.12.1 以降または EMR 3.46.1 以降の DataLake、DataFlow、DataServing、および Custom クラスターでは、選択したサービスがコアノードに依存しない場合、Node Group セクションで Remove Node Group をクリックできます。

操作手順

  1. E-MapReduce コンソールにログインします。

  2. トップナビゲーションバーで、必要に応じてリージョンとリソースグループを選択します。

    • リージョン:クラスターは選択したリージョンに作成されます。クラスター作成後にリージョンを変更することはできません。

    • リソースグループ:デフォルトでは、アカウント内のすべてのリソースが表示されます。

  3. Create Cluster をクリックします。

  4. プロンプトに従ってクラスターを設定します。

    クラスターを作成する際には、ソフトウェア、ハードウェア、基本設定を行い、注文を確定する必要があります。

    説明

    クラスター作成後、クラスター名以外の設定は変更できません。クラスターを作成する前に、すべての設定を慎重に確認してください。

  5. すべての情報が正しいことを確認したら、Confirm をクリックします。

    重要
    • 従量課金クラスター:クラスター作成プロセスはすぐに開始されます。クラスターが作成されると、そのステータスは Running に変わります。

    • サブスクリプションクラスター:注文が生成されます。支払いが完了するとクラスターが作成されます。

設定の詳細

ソフトウェア設定

設定

説明

Region

リージョンはデータセンターが所在する地理的エリアです。ネットワーク遅延を減らすために、近接したリージョンを選択してください。インスタンス作成後にリージョンを変更することはできません。

[リージョン] ドロップダウンリストから、EMR インスタンスの物理的な場所を選択します。

Business Scenario

実際のニーズに基づいてシナリオを選択します。

  • Data Lake: ビッグデータコンピュートエンジンを実行し、優れたデータ分析機能を提供できる、柔軟で信頼性が高く、効率的なクラスターを提供します。

    • データレイクアーキテクチャの構築をサポートし、データレイクの高速化に JindoFS を使用します。

    • ストレージとして OSS 上の Hadoop 分散ファイルシステム (HDFS) (フルマネージド HDFS) をサポートします。これにより、運用保守コストが削減され、使用量に基づいて課金されます。

    詳細については、「DataLake クラスター」をご参照ください。

  • Data Analytics (OLAP):外部テーブルをインポートまたは使用して、ClickHouse や StarRocks などのオンライン分析処理 (OLAP) エンジンに大量のデータをロードします。これにより、ユーザーペルソナ、オーディエンスセグメンテーション、BI レポート、ビジネス分析などのシナリオで、効率的、リアルタイム、かつ柔軟なデータ分析が可能になります。

  • Real-time Data Streaming (DataFlow): EMR プラットフォーム上のワンストップのリアルタイムコンピューティングソリューションです。これには、分散型で高スループットかつスケーラブルなメッセージングシステムである Kafka と、公式 Apache Flink プロダクトをベースにした Ververica の商用 Flink カーネルという 2 つの主要コンポーネントが含まれます。さまざまなエンドツーエンドのリアルタイムコンピューティングの問題解決にフォーカスしており、リアルタイムの抽出・変換・書き出し (ETL) やログの収集と分析などのシナリオで広く使用されています。どちらかのコンポーネントを個別に使用することもできます。

  • Data Service (DataServing):

    • 柔軟で信頼性が高く、効率的なデータサービスクラスターを提供します。

    • セミマネージドの HBase クラスターを提供し、OSS-HDFS (JindoFS) サービスに基づいて計算クラスターとデータストレージを分離できます。

    • JindoData ローカルキャッシュをサポートし、データサービスクラスターの読み書き性能をさらに向上させます。

    詳細については、「DataServing クラスター」をご参照ください。

  • Custom Cluster: 豊富なサービスの組み合わせを提供します。必要に応じてサービスを選択します。

    説明

    本番環境では、同じノードグループに複数のストレージサービスをデプロイしないでください。

Product Version

EMR 製品のリリースバージョンです。詳細については、「リリースバージョン」をご参照ください。

High Service Availability

この機能はデフォルトで無効になっています。高可用性を有効にすると、EMR は複数のマスターノードを作成して、ResourceManager と NameNode の高可用性をサポートします。EMR は、障害のリスクを軽減するために、これらのノードを異なる基盤ハードウェアに分散させます。

Optional Services (Select One At Least)

必要に応じて他のサービスを選択します。選択したサービスの関連サービスプロセスは、デフォルトで開始されます。

重要
  • 選択するサービスが多いほど、マシンの構成要件は高くなります。次のステップで、サービスの数に基づいてインスタンスタイプを選択してください。そうしないと、クラスターがサービスを実行するためのリソースが不足する可能性があります。

  • インストールされたサービスはアンインストールできません。

  • 設定するパラメーターは、製品バージョンと選択したサービスによって異なります。

サービス運用ログの収集を許可する

ワンクリックですべてのサービスのログ収集を有効または無効にできます。この機能は、サービス運用ログを収集するためにデフォルトで有効になっています。これらのログは、クラスターの診断にのみ使用されます。

クラスターの作成後、Basic Information ページで サービス実行ログの収集ステータス を変更します。

重要

ログ収集を無効にすると、EMR のヘルスチェックと技術サポートは制限されますが、他の機能は通常どおり使用できます。この機能を無効にする方法とその影響については、「サービスログの収集を停止するにはどうすればよいですか?」をご参照ください。

Metadata

メタデータは、次の方法で保存および管理できます。

  • DLF Unified Metadata (推奨): メタデータは Data Lake Formation (DLF) に保存されます。

    DLF を有効化すると、システムによってデフォルトの DLF Catalog が選択されます。デフォルトのカタログは、お客様の UID です。クラスターごとに異なるデータカタログを使用する場合は、次のように新しいカタログを作成します。

    1. Create Catalog をクリックします。表示されるダイアログボックスで、カタログ ID を入力し、OK をクリックします。

    2. DLF Catalog ドロップダウンリストから、作成したデータカタログを選択します。

  • Self-managed RDS: お客様が管理するインスタンスまたは Alibaba Cloud RDS インスタンスをメタストアとして選択できます。

    このオプションを選択した場合は、RDS 関連のパラメーターを設定します。詳細については、「セルフマネージド RDS データベースの設定」をご参照ください。

  • Built-in MySQL(非推奨):メタデータは、クラスターのローカル環境の MySQL データベースに保存されます。

    説明
    • テストシナリオ: DLF Unified Metadata を使用します。

    • 本番シナリオ: DLF Unified Metadata または Self-managed RDS を使用します。

クラスターストレージのルートパス

このパラメーターは、オプションサービスセクションで OSS-HDFS サービスを選択した場合に設定します。HDFS サービスを選択した場合は、このパラメーターは不要です。

重要

EMR コンソールで OSS-HDFS インスタンスの作成 をクリックして作成されたバケットは、EMR を介してのみ読み取りおよび書き込みができます。コンソールまたは API を介した操作はサポートされていません。

初めて OSS-HDFS サービスを使用する場合、Alibaba Cloud アカウントは こちら をクリックし、プロンプトに従って権限付与を完了する必要があります。 Resource Access Management (RAM) ユーザーの場合、Alibaba Cloud アカウントは、サービスを有効化するための権限付与を行い、AliyunEMRDlsFullAccess 権限、ならびに AliyunOSSDlsDefaultRole および AliyunEMRDlsDefaultRole ロールを付与する必要があります。 詳細については、「RAM ユーザーに権限を付与する」をご参照ください。 同一リージョンで OSS-HDFS サービスが有効化されているバケットを選択するか、OSS-HDFS インスタンスの作成 をクリックしてプロンプトに従い、クラスターのルートストレージパスとして OSS-HDFS インスタンスを作成します。

説明
  • OSS-HDFS サービスを使用する前に、選択したリージョンでサービスがサポートされていることを確認してください。そうでない場合は、リージョンを変更するか、OSS-HDFS サービスの代わりに HDFS サービスを使用してみてください。OSS-HDFS サービスをサポートするリージョンについては、「OSS-HDFS サービスへのアクセスの有効化と権限付与」をご参照ください。

  • EMR 5.12.1 以降または EMR 3.46.1 以降の DataLake、DataFlow、DataServing、およびカスタムクラスターでは、OSS-HDFS サービスを選択できます。

サービスとバージョンに関連する設定

以下の設定は、選択した製品バージョンとサービスによって異なります。

  • 以下のパラメーターは、Hive サービスが選択されている場合、EMR 5.12.0 以前または EMR 3.46.0 以前でのみ必要です。

    パラメーター

    説明

    Hive ストレージモード

    データウェアハウスのストレージディレクトリとして OSS-HDFS または OSS を使用します。チェックボックスをオフにすると、クラスターの HDFS がストレージディレクトリとして使用されます。

    チェックボックスがデフォルトで選択されている場合は、[Hive データウェアハウスパス] も設定する必要があります。HDFS サービスが有効になっているバケットを選択することを推奨します。

    説明

    OSS または OSS-HDFS バケットへのアクセス権限があることを確認してください。

  • 以下のパラメーターは、HBase サービスが選択されている場合、EMR 5.12.0 以前または EMR 3.46.0 以前でのみ必要です。

    パラメーター

    説明

    HBase ストレージモード

    HBase データファイルを格納するために使用します。サポートされているモードは OSS-HDFSOSS です。

    OSS-HDFS モードを選択した場合は、HBase ストレージパス も設定する必要があります。HDFS サービスが有効になっているバケットを選択することを推奨します。

  • EMR 5.12.1 以降または EMR 3.46.1 以降で、OSS-HDFS と HBase サービスを選択した場合は、次のパラメーターを設定する必要があります。クラスター作成後、HBase-HDFS サービスが生成されます。詳細については、「HBASE-HDFS」をご参照ください。

    パラメーター

    説明

    ApsaraDB for HBase ログストレージ

    このチェックボックスはデフォルトで選択されており、HBase が HLog ファイルを HDFS に保存することを示します。

その他のシナリオ

重要

2022年12月19日 17:00 (UTC+8) 以降に初めて EMR クラスターを作成する場合、以下のクラスタータイプは選択できません。

  • Machine Learning (データサイエンス): このクラスタータイプは、ビッグデータおよび AI シナリオ向けに設計されています。

    • 分散型ディープラーニングフレームワークを提供します。

    • 200 以上の古典的な機械学習アルゴリズムパッケージを提供します。

    • AutoML 機能と 10 以上のディープラーニングアルゴリズムを提供し、レコメンデーションや広告などのシナリオをカバーします。

  • 旧バージョンデータレイク:このクラスタータイプは、大規模なデータ処理フレームワークとパイプラインを構築するためのものです。ビッグデータ分析に適しており、Apache Hive、Spark、Presto などのオープンソースフレームワークをサポートしています。以下のクラスタータイプがサポートされています:

    • Hadoop

      • オープンソースコンポーネントの包括的なリストを提供し、Hadoop エコシステムと完全に互換性があります。

      • ビッグデータのオフライン処理、リアルタイム処理、対話型検索など、さまざまなシナリオで使用できます。

      • データレイクアーキテクチャの構築をサポートし、データレイクの高速化に JindoFS を使用します。

    • [Zookeeper]:独立した分散型一貫性ロックサービスを提供し、大規模な Hadoop、HBase、Kafka クラスターに適しています。

    • [Presto]:メモリベースの分散型 SQL 対話型検索エンジンです。複数のデータソースをサポートし、ペタバイト規模のデータの複雑な分析やクロスデータソースクエリに適しています。

(オプション) 詳細設定

設定

説明

Kerberos Authentication

この機能はデフォルトで無効になっています。Kerberos は、対称鍵技術に基づく ID 認証プロトコルです。他のサービスに ID 認証を提供できます。詳細については、「Kerberos」をご参照ください。

重要
  • Knox:Kerberos 認証はサポートされていません。

  • Kudu:Kerberos 認証が有効になっていても、Kudu サービスは Kerberos 認証メカニズムをサポートして有効にするために追加の設定が必要です。詳細については、Apache Kudu ドキュメントの「Authentication」をご参照ください。

Custom Software Configuration

JSON ファイルを指定して、Hadoop、Spark、Hive などのクラスター内の基本ソフトウェアを設定できます。詳細については、「カスタムソフトウェアの設定」をご参照ください。この機能はデフォルトで無効になっています。

説明

Hive ジョブの同時実行数を設定する方法については、「Hive ジョブの同時実行数の上限を推定するにはどうすればよいですか?」をご参照ください。

ハードウェア設定

設定

説明

支払いタイプ

デフォルトの課金方法はサブスクリプションです。次の課金方法がサポートされています。

  • Pay-as-you-go: 使用後に支払う後払い方式です。実際の使用時間に対して 1 時間ごとに課金されます。このメソッドは、短期間のテストタスクや柔軟で動的なタスクに適しています。

  • サブスクリプション:使用前に支払いを行う前払い方式です。

    説明
    • テストシナリオでは Pay-as-you-go を使用し、テストが成功した後に本番用として新しい サブスクリプション クラスターを作成します。

    • サブスクリプションインスタンスの場合は、Subscription Duration を選択し、Auto-renewal を有効にするかどうかも選択します。デフォルトの更新期間は 6 か月で、自動更新は有効になっています。自動更新が有効になっている場合、自動更新操作はインスタンスの有効期限が切れる 7 日前に実行されます。詳細については、「更新ポリシー」をご参照ください。

Zone

ゾーンは、同一リージョン内の異なる物理エリアです。同一リージョン内のゾーンは、内部ネットワークを介して相互に通信できます。通常はデフォルトのゾーンを使用できます。

VPC

Virtual Private Cloud (VPC) は、Alibaba Cloud で定義する分離されたネットワーク環境です。VPC を完全に制御できます。

既存の VPC を選択するか、VPC の作成 をクリックして VPC コンソールに移動し、VPC を作成します。 詳細については、「VPC の作成と管理」をご参照ください。

説明

クラスターのプライベート IP は VPC にバインドされているため、クラスター作成後にプライベート IP アドレスを変更することはできません。

vSwitch

vSwitch は、異なるクラウドリソースを接続する VPC の基本的なネットワークモジュールです。

既存の vSwitch を選択するか、. Create vSwitch をクリックして VPC コンソールに移動し、vSwitch を作成します。 詳細については、「vSwitch の作成と管理」をご参照ください。

Default Security Group

セキュリティグループは、セキュリティグループ内のインスタンスのインバウンドおよびアウトバウンドトラフィックを制御する仮想ファイアウォールです。詳細については、「セキュリティグループの概要」をご参照ください。

既存のセキュリティグループを選択するか、create a new security group. をクリックして ECS コンソールに移動し、新しいセキュリティグループを作成します。 詳細については、「セキュリティグループの作成」をご参照ください。

重要

ECS で作成された高度なセキュリティグループは使用しないでください。

Node Group

必要に応じてインスタンスタイプを選択します。詳細については、「インスタンスファミリー」をご参照ください。

  • [マスター]:主に ResourceManager や NameNode などの制御プロセスをデプロイする役割を担います。

  • [コア]:主にクラスターのすべてのデータを保存する役割を担います。クラスター作成後に必要に応じてコアノードをスケールアウトすることもできます。

  • [タスク]:データを保存しません。クラスターの計算能力を調整するために使用されます。これはデフォルトで無効になっていますが、必要に応じて設定できます。

    重要

    タスクノードグループでサポートされている課金方法は、従量課金、スポットインスタンス、サブスクリプションです。

  • Add to Deployment Set: 高可用性が有効になると、マスターノードはデフォルトでデプロイメントセットに追加されます。デプロイメントセットは、インスタンスの配置を制御するポリシーです。詳細については、「デプロイメントセット」をご参照ください。

  • System Disk: 必要に応じて、標準 SSD、ESSD (エンタープライズ SSD)、または Ultra ディスクを選択し、システムディスクサイズを調整します。

  • Data Disk: 必要に応じて、標準 SSD、ESSD、または Ultra ディスクを選択し、データディスクサイズを調整します。

    説明

    ESSD を選択する場合、選択したディスクの容量に基づいて異なるパフォーマンスレベル (PL) を設定し、さまざまなクラスターパフォーマンス要件を満たすことができます。デフォルトのパフォーマンスレベルは PL1 です。ディスク容量の範囲に基づいて、システムディスクは PL0、PL1、PL2 の ESSD 仕様をサポートし、データディスクは PL0、PL1、PL2、PL3 の ESSD 仕様をサポートします。クラウドディスクの詳細については、「クラウドディスクの概要」をご参照ください。

  • Instances: Master ノードグループには、デフォルトで 1 つのインスタンスがあります。高可用性が有効な場合、複数の Master インスタンスを持つことができます。

    コアノードグループには、デフォルトで 2 つのインスタンスがあります。必要に応じてこの数を調整できます。

  • Additional Security Group: 追加のセキュリティグループを使用すると、異なる外部リソースまたはアプリケーション間のアクセスを柔軟にカスタマイズできます。このノードグループには、最大 2 つの追加のセキュリティグループを関連付けることができます。

  • Assign Public Network IP: クラスターに Elastic IP アドレス (EIP) を割り当てるかどうかを指定します。デフォルトでは無効になっています。ノードグループレベルでのパブリック IP の割り当ては、DataLake クラスターでのみサポートされています。

    説明

    この機能を有効にせず、作成後にパブリック IP アドレスを使用してクラスターにアクセスしたい場合は、ECS でパブリック IP アドレスを申請してください。詳細については、「EIP の申請」をご参照ください。

クラスターのスケーリング

必要に応じてスケーリングルールを選択します。

  • Auto Scaling ルールを使用しない (デフォルト)。

  • カスタム Auto Scaling ルール: カスタム Auto Scaling ルールを作成して、時間または負荷に基づく自動スケーリングを有効にします。 詳細については、「カスタム Auto Scaling ルールを作成する」をご参照ください。

  • マネージド Auto Scaling ルール: クラスターの起動時に、EMR はマネージドスケーリングルールに基づいてタスクノード数を事前に割り当てます。詳細については、「マネージド Auto Scaling ルールを作成する」をご参照ください。

説明
  • スケーリングルールは、タスクノードグループの課金方法が従量課金またはスポットインスタンスの場合にのみ設定できます。

  • クラスターに Trino、Presto、Starrocks、Impala、または Clickhouse コンポーネントが含まれている場合、マネージドスケーリングルールに切り替えることはできません。

基本設定

設定項目

説明

Cluster Name

クラスターの名前です。名前は 1~64 文字で、漢字、英字、数字、ハイフン (-)、アンダースコア (_) を使用できます。

Identity Credentials

Identity Credentials は、クラスターのマスターノードに安全にログインするために使用されます。ログイン操作については、「クラスターにログインする」をご参照ください。以下の ID がサポートされています。

  • Key Pair (デフォルト): 既存のキーペアを選択するか、Create Key Pair をクリックしてすぐに作成します。

    キーペアは、公開鍵と秘密鍵で構成される、安全で便利なログイン認証方式です。Linux インスタンスでのみサポートされています。キーペアの使用方法の詳細については、「SSH キーペア」をご参照ください。

  • Password: マスターノードのログインパスワードを設定して確認します。デフォルトのユーザー名はルートです。

    • パスワードのルール: 長さは 8~30 文字で、大文字、小文字、数字、特殊文字を含む必要があります。

    • 特殊文字は次のとおりです:感嘆符 (!)、アットマーク (@)、番号記号 (#)、ドル記号 ($)、パーセント記号 (%)、キャレット (^)、アンパサンド (&)、アスタリスク (*)。

(オプション) 詳細設定

設定

説明

ECS Application Role

EMR コンピュートノードでプログラムを実行する場合、Alibaba Cloud AccessKey を入力することなく、OSS などの他の Alibaba Cloud サービスにアクセスできます。EMR は、アクセスを承認するために一時的な AccessKey を自動的にリクエストします。ECS Application Role は、この AccessKey の権限をコントロールします。

Bootstrap Actions

クラスターが起動する前に実行されるスクリプトです。これらを使用して、サードパーティのソフトウェアをインストールしたり、クラスターのランタイム環境を変更したりできます。詳細については、「ブートストラップアクションを使用してスクリプトを実行する」をご参照ください。

リリース保護

従量課金クラスターを作成する際、またはクラスター作成後にリリース保護を有効にして、クラスターが誤ってリリースされるのを防ぐことができます。リリース保護を有効にすると、クラスターを直接リリースすることはできません。クラスターをリリースするには、まずリリース保護を無効にする必要があります。詳細については、「リリース保護の有効化と無効化」をご参照ください。

Tags

クラスターを作成する際にタグをアタッチするか、クラスター作成後に追加できます。これにより、クラスターリソースの識別と管理が容易になります。詳細については、「タグの設定」をご参照ください。

Resource Group

リソースグループを使用すると、目的、権限、所有者ごとにクラウドリソースをグループ化できます。詳細については、「リソースグループの使用」をご参照ください。

Data Disk Encryption

この機能は、クラスターを作成するときにのみ有効にできます。この機能を有効にすると、転送中のデータとデータディスク上の保存データの両方が暗号化されます。詳細については、「データディスクの暗号化を有効にする」をご参照ください。

システムディスクの暗号化

この機能は、クラスターを作成するときにのみ有効にできます。この機能を有効にすると、オペレーティングシステム、プログラムファイル、およびシステムディスク上のその他のシステム関連データが暗号化されます。詳細については、「システムディスクの暗号化を有効にする」をご参照ください。

Remarks

クラスターに関する重要な情報を記録します。クラスターの作成後、Basic Information ページで備考を変更します。クラスターの作成時に備考を設定しない場合は、作成後にこのパラメーターを編集します。

注文の確認

(任意) クラスターテンプレートとして保存: 身分認証にKey Pairを選択した場合、クラスターテンプレートとして保存をクリックして現在のクラスター構成をテンプレートとして保存できます。

  1. クラスターテンプレートとして保存 ダイアログボックスで、クラスターテンプレート名 を入力し、クラスターテンプレートのリソースグループ を選択します。

    パラメーター

    説明

    クラスターテンプレート名

    後の管理を容易にするために、クラスターテンプレートの名前を入力します。名前は 1~64 文字で、漢字、英字、数字、ハイフン (-)、アンダースコア (_) のみ使用できます。

    クラスターテンプレートのリソースグループ

    必要に応じて既存のリソースグループを選択し、グループごとにテンプレートを管理します。

    新しいリソースグループを作成するには、Create Resource Group. をクリックします。詳細については、「リソースグループの作成」をご参照ください。

  2. OK をクリックします。

    新しいクラスターテンプレートが クラスターテンプレートの管理 パネルに追加されます。クラスターテンプレートの詳細については、「クラスターテンプレートの作成」をご参照ください。

よくある質問

クラスター作成時に "EntityNotExist.Role" エラーが報告された場合の対処方法

  • 原因:現在のアカウントには、クラスターを作成するために必要な権限がありません。

  • 解決策:

    解決策は、Alibaba Cloud アカウントを使用しているか、RAM ユーザーを使用しているかによって異なります。

    • Alibaba Cloud アカウント:クラスターを作成するには、アカウントが他の Alibaba Cloud サービスにアクセスし、関連する操作を実行するための権限が必要です。クラウドリソースアクセス権限付与 をクリックして、必要な権限を付与できます。権限付与が成功すると、クラスターを作成できます。ロールの権限付与の詳細については、「Alibaba Cloud アカウントの権限付与」をご参照ください。

    • RAM ユーザー:このエラーは、RAM ユーザーが EMR クラスターを作成するために必要な権限を持っていないために発生します。Alibaba Cloud アカウントを使用して、AliyunEMRFullAccess ポリシーを RAM ユーザーに付与してください。詳細については、「RAM ユーザーへの権限付与」をご参照ください。

関連ドキュメント