クラスターの作成 - E-MapReduce - Alibaba Cloud ドキュメントセンター

前提条件

RAM 認可を完了しておく必要があります。詳細については、「Alibaba Cloud アカウントのロールを認可する」をご参照ください。

注意事項

EMR V5.12.1、EMR V3.46.1 以降の DataLake、DataFlow、DataServing、および Custom クラスターで、選択したサービスにコアノードが不要な場合は、Node Group セクションの操作列で Remove Node Group をクリックできます。

手順

E-MapReduce コンソールにログインします。
上部メニューで、必要に応じてリージョンとリソースグループを選択します。
- リージョン：クラスターは選択したリージョンに作成されます。クラスターの作成後にリージョンを変更することはできません。
- リソースグループ：デフォルトでは、アカウント内のすべてのリソースが表示されます。
Create Cluster をクリックします。
画面の指示に従ってクラスターを設定します。

クラスターを作成するには、ソフトウェア、ハードウェア、および基本設定を構成し、注文を確認する必要があります。

説明
クラスターの作成後、クラスター名を除き、設定を変更することはできません。クラスターを作成する前に、すべての設定を慎重に確認してください。
すべての設定が正しいことを確認した後、Confirm をクリックします。
重要
- 従量課金クラスター：作成が直ちに開始されます。クラスターが作成されると、ステータスが [Running] に変わります。
- サブスクリプションクラスター：最初に注文が作成されます。支払いが完了すると、クラスターが作成されます。

パラメータ

ソフトウェア構成

パラメーター	説明
[Region]	リージョンは、データセンターが配置されている地理的なエリアです。お客様の所在地に近いリージョンを選択すると、ネットワーク遅延を低減できます。クラスターの作成後にリージョンを変更することはできません。
[Business Scenario]	ビジネスニーズに基づいてシナリオを選択します。 [Data Lake] ：ビッグデータコンピューティングエンジンを実行し、データ分析を行うための、柔軟で信頼性が高く効率的なマネージドクラスターを提供します。データレイクアーキテクチャの構築をサポートし、JindoFS を使用してデータレイク操作を高速化します。ストレージとして OSS-HDFS (フルマネージド HDFS) をサポートし、従量課金モデルで運用保守コストを削減します。詳細については、「DataLake クラスター」をご参照ください。 [Data Analytics] ：ClickHouse や StarRocks などの OLAP 分析エンジンに、データインポートや外部テーブルなどの方法を使用して大量のデータセットをインポートします。ユーザープロファイリング、オーディエンスセグメンテーション、BI レポート、ビジネス分析などのビジネスシナリオにおいて、効率的でリアルタイムかつ柔軟なデータ分析を提供します。 [Real-time Data Streaming] ：E-MapReduce (EMR) プラットフォーム上のオールインワンリアルタイムコンピューティングソリューションです。主に 2 つのコンポーネントで構成されています。分散型で高スループット、高スケーラビリティのメッセージングシステムである Kafka と、Ververica の Flink 商用カーネル (Apache Flink ベース) です。このソリューションは、エンドツーエンドのリアルタイムコンピューティングにおける課題解決に重点を置いており、リアルタイムデータ ETL やログ収集・分析に広く使用されています。各コンポーネントを個別に使用することもできます。 [Data Service] ：柔軟で信頼性が高く効率的なデータサービスクラスターを提供します。セミマネージド HBase クラスターを提供し、OSS-HDFS (JindoFS サービス) を使用してコンピューティングクラスターとデータストレージを分離します。 JindoData ローカルキャッシングをサポートし、データサービスクラスターの読み書き性能をさらに向上させます。詳細については、「DataServing クラスター」をご参照ください。 [Custom Cluster] ：豊富なサービスの選択肢を提供します。要件に基づいて必要なサービスを選択できます。説明本番環境では、同じノードグループに複数のストレージサービスをデプロイしないことを推奨します。
[Product Version]	EMR 製品のリリースバージョンです。詳細については、「リリースバージョン」をご参照ください。
[High Service Availability]	この機能はデフォルトで無効になっています。高可用性を有効にすると、EMR は複数の Master ノードを作成し、ResourceManager と NameNode の高可用性をサポートします。これらのノードは、障害のリスクを低減するために、異なる基盤となるハードウェアに分散配置されます。
[Optional Services (Select One At Least)]	ビジネス要件に基づいて他のサービスを選択します。選択したサービスは、関連するプロセスを自動的に開始します。重要サービスを追加すると、ハードウェア要件が増加します。後の手順で、選択したサービスに適したインスタンス仕様を選択し、十分なリソースを確保してください。インストールされたサービスはアンインストールできません。必要なパラメーターは、製品バージョンと選択したサービスによって異なります。
[サービス運用ログの収集を許可する]	この設定はデフォルトで有効になっており、すべてのサービスのログ収集を制御します。これらのログはクラスター診断にのみ使用されます。クラスターが作成されると、基本情報ページに移動してサービス実行ログの収集ステータスを変更できます。重要ログ収集を無効にすると、EMR ヘルスチェックとテクニカルサポートが制限されますが、他の機能は正常に機能します。この機能を無効にする方法とその影響の詳細については、「サービスログの収集を停止する方法」をご参照ください。
[Metadata]	メタデータの保存と管理には、以下の方法を利用できます。 [DLF Unified Metadata] ：メタデータを Data Lake Formation (DLF) に保存します。 DLF を有効にすると、システムはデフォルトの DLF Catalog (通常は UID) を選択します。クラスターごとに異なるカタログを使用するには、新しいカタログを作成します: Create Catalog をクリックします。表示されるダイアログボックスで、カタログ ID を入力し、決定をクリックします。 DLF Catalog ドロップダウンリストから、作成したカタログを選択します。 [Self-managed RDS] ：独自の RDS インスタンスまたは Alibaba Cloud RDS インスタンスをメタデータストレージとして使用します。この方法を選択する場合は、RDS 関連のパラメーターを設定する必要があります。詳細については、「セルフマネージド RDS データベースの設定」をご参照ください。 [Built-in MySQL] ：クラスターの Master ノード上の MySQL データベースにメタデータを保存します。説明テストシナリオでは：DLF Unified Metadata の使用を推奨します。本番シナリオでは：DLF Unified Metadata または Self-managed RDS を使用できます。
[クラスターストレージのルートパス]	このパラメーターは、OSS-HDFS サービスを選択した場合にのみ必要です。HDFS サービスを選択した場合は不要です。重要 EMR コンソールでOSS-HDFS インスタンスの作成ボタンをクリックして作成されたバケットは、EMR 経由でのみ読み取りおよび書き込み操作をサポートします。コンソールまたは API からの操作はサポートされていません。初めて OSS-HDFS サービスを使用する場合、Alibaba Cloud アカウント (メインアカウント) はこちらをクリックし、プロンプトに従って承認を完了する必要があります。 RAM ユーザーの場合、Alibaba Cloud アカウントは、サービスの有効化を承認し、AliyunEMRDlsFullAccess ポリシー、AliyunOSSDlsDefaultRole ロール、および AliyunEMRDlsDefaultRole ロールを付与する必要があります。詳細については、「RAM ユーザーに権限を付与する」をご参照ください。 OSS-HDFS サービスが既に有効になっている同じリージョン内のバケットを選択するか、OSS-HDFS インスタンスの作成をクリックして、クラスターのルートストレージパスとして新しい OSS-HDFS インスタンスを作成します。説明 OSS-HDFS サービスを使用する前に、選択したリージョンで利用可能であることを確認してください。利用できない場合は、別のリージョンに切り替えるか、代わりに HDFS サービスを使用できます。OSS-HDFS サービスをサポートするリージョンについては、「OSS-HDFS の有効化とアクセス権限の付与」をご参照ください。 OSS-HDFS サービスは、EMR V5.12.1 以降または EMR V3.46.1 以降のデータレイク、データフロー、データサービング、カスタムクラスターで利用できます。

サービスおよびバージョンのパラメーター

以下のパラメーターは、選択した製品バージョンとサービスに関連します。

以下のパラメーターは、Hive サービスが選択されている場合、EMR V5.12.0 以前または EMR V3.46.0 以前でのみ必須です。

パラメーター

説明

[Hive Storage Mode]

データウェアハウスのストレージディレクトリとして、OSS-HDFS または OSS を使用するかどうかを指定します。このオプションを選択しない場合、クラスターのローカル HDFS を使用します。

これがデフォルトで選択されている場合は、Hive Data Warehouse Path も設定する必要があります。HDFS サービスが有効になっているバケットを選択することをお勧めします。

説明

OSS または OSS-HDFS バケットにアクセスするために必要なアクセス許可があることを確認してください。

以下のパラメーターは、HBase サービスが選択されている場合、EMR V5.12.0 以前または EMR V3.46.0 以前でのみ必須です。

パラメーター

説明

[HBase Storage Mode]

HBase データファイルのストレージモードを指定します。サポートされているモードは、OSS-HDFS と OSS です。

OSS-HDFS モードを選択した場合は、HBase Storage Path も設定する必要があります。 HDFS サービスが有効になっているバケットを選択することをお勧めします。

以下のパラメーターは、OSS-HDFS および HBase サービスを選択した後、EMR V5.12.1 以降または EMR V3.46.1 以降でのみ必須です。クラスターの作成後、HBase-HDFS サービスが生成されます。詳細については、「HBASE-HDFS」をご参照ください。

パラメーター	説明
[ApsaraDB for HBase ログストレージ]	デフォルトで選択されており、HBase は HLog ファイルを OSS-HDFS に格納します。

その他のシナリオ

重要

2022 年 12 月 19 日 17:00 (UTC+8) 以降に初めて E-MapReduce (EMR) クラスターを作成する場合、次のクラスタータイプは選択できません。

Machine Learning (データサイエンス)：主にビッグデータ + AI シナリオ向けです。
- 分散ディープラーニングフレームワークを提供します。
- 200 を超える代表的な機械学習アルゴリズムパッケージを提供します。
- AutoML 機能と、レコメンデーションや広告などのシナリオに対応した 10 を超えるディープラーニングアルゴリズムを提供します。
旧バージョンデータレイク：大規模なデータ処理フレームワークとパイプラインを構築するために使用され、ビッグデータ分析に適しています。Apache Hive、Spark、Presto などのオープンソースフレームワークをサポートしています。次のクラスタータイプをサポートしています：
- [Hadoop]：
  - 最も豊富なオープンソースコンポーネントを提供し、Hadoop エコシステムと完全に互換性があります。
  - ビッグデータのオフライン処理、リアルタイム処理、インタラクティブクエリなど、さまざまなシナリオで使用できます。
  - データレイクアーキテクチャの構築をサポートし、JindoFS を使用してデータレイクを高速化します。
- [ZooKeeper]：大規模な Hadoop、HBase、Kafka クラスター向けに、独立した分散協調サービスを提供します。
- [Presto]：インメモリの分散 SQL エンジンで、インタラクティブクエリに使用します。複数のデータソースをサポートし、ペタバイトスケールのデータに対する複雑な分析や、データソースをまたいだクエリに適しています。

詳細設定 (オプション)

パラメーター	説明
[Kerberos Authentication]	この機能はデフォルトで無効になっています。Kerberos は、対称鍵暗号に基づくネットワーク認証プロトコルで、他のサービスに認証を提供します。詳細については、「Kerberos」をご参照ください。重要 Knox： Kerberos 認証はサポートされていません。 Kudu： Kerberos が有効になっている場合でも、Kudu サービスで Kerberos 認証をサポートし、有効化するには、追加の設定が必要です。詳細については、Apache Kudu のドキュメント「Authentication」をご参照ください。
[ソフトウェアカスタム設定]	JSON ファイルを指定して、Hadoop、Spark、Hive などのクラスター内の基本ソフトウェアを設定できます。この機能はデフォルトで無効になっています。詳細については、「カスタムソフトウェアの設定」をご参照ください。説明 Hive ジョブの同時実行数の設定方法については、「よくある質問」をご参照ください。

ハードウェア構成

パラメーター	説明
[支払いタイプ]	デフォルトではサブスクリプションが選択されています。以下の課金方法に対応しています。 [Pay-as-you-go]: 実際の使用量に基づいて時間単位で課金される後払い方式です。この方法は、短期テストや柔軟で動的なタスクに適しています。 [サブスクリプション]: 利用前に支払う前払いモデルです。説明テストシナリオでは、Pay-as-you-go を使用することをお勧めします。テストが成功したら、本番環境用にサブスクリプションクラスターを作成してください。サブスクリプションインスタンスの場合、Subscription Duration を選択し、Auto-renewal を有効にするかどうかを決定する必要もあります。デフォルトの更新期間は 6 か月で、自動更新は有効になっています。自動更新が有効になっている場合、インスタンスは有効期限が切れる 7 日前に自動的に更新されます。詳細については、「更新」をご参照ください。
[可用性ゾーン]	アベイラビリティーゾーンは、リージョン内にある物理的に分離された場所で、低レイテンシーのプライベートネットワークで相互接続されています。通常、デフォルトのアベイラビリティーゾーンを使用できます。
[VPC]	Virtual Private Cloud (VPC) は、Alibaba Cloud 上にある論理的に分離されたネットワーク環境で、ネットワーク構成を完全に制御できます。既存の VPC を選択するか、VPC の作成をクリックして VPC コンソールですぐに VPC を作成します。詳細については、「VPC の作成と管理」をご参照ください。説明プライベート IP アドレスは VPC にバインドされているため、クラスターの作成後にプライベート IP アドレスを変更することはできません。
[vSwitch]	vSwitch は、VPC の基本的なネットワーク区画であり、さまざまなクラウドリソースを接続するために使用されます。既存の vSwitch を選択するか、. Create vSwitch をクリックして VPC コンソールですぐに vSwitch を作成します。詳細については、「vSwitch の作成と管理」をご参照ください。 vSwitch の CIDR ブロックのサイズによって、使用可能な IPv4 アドレスの数が決まります。たとえば、/24 CIDR ブロックでは約 250 個の使用可能な IP アドレスが利用でき、/20 ブロックでは約 4,090 個、/17 ブロックでは約 32,764 個が利用できます。クラスターに多数のノードが必要な場合は、すべてのクラスターノードに十分な IP アドレスを割り当てられるように、より大きな CIDR ブロックを持つ vSwitch を選択してください。 vSwitch の作成後に CIDR ブロックを変更することはできません。より大きな IP アドレス範囲が必要な場合は、より大きな CIDR ブロックを持つ新しい vSwitch を作成し、その vSwitch に基づいて新しいクラスターを作成する必要があります。vSwitch を作成する際、コンソールには選択した CIDR ブロックで使用可能な IP アドレスの数が表示されるため、クラスターサイズの要件を満たしているかどうかを評価しやすくなります。
[Default Security Group]	セキュリティグループは、グループ内のインスタンスのインバウンドトラフィックとアウトバウンドトラフィックを制御する仮想ファイアウォールです。詳細については、「セキュリティグループの概要」をご参照ください。既存のセキュリティグループを選択するか、create a new security group. をクリックして ECS コンソールで作成します。詳細については、「セキュリティグループの作成」をご参照ください。重要 ECS で作成されたエンタープライズセキュリティグループは使用しないでください。
[Node Group]	要件に合わせてインスタンスタイプを選択できます。詳細については、「インスタンスファミリー」をご参照ください。 [Master]: ResourceManager や NameNode などのコントロールプレーンサービスを実行します。コア: クラスターの分散ファイルシステム (HDFS) にデータを格納します。また、クラスターの作成後に、必要に応じてコアノードをスケールアウトすることもできます。タスク: 追加のコンピューティング能力を提供し、データを保存しません。このノードグループは任意であり、コンピューティングリソースを拡張するために追加できます。重要タスクノードグループは、従量課金、プリエンプティブルインスタンス、サブスクリプションの課金方法をサポートしています。 [Add to Deployment Set]: 高可用性を有効にすると、マスターノードはデフォルトでデプロイメントセットに追加されます。デプロイメントセットは、インスタンスの分散を制御するポリシーです。詳細については、「デプロイメントセット」をご参照ください。 [System Disk]：必要に応じて、標準 SSD、拡張 SSD (ESSD)、またはウルトラディスクを選択します。必要に応じてシステムディスクサイズを調整します。 [Data Disk]：必要に応じて、標準 SSD、拡張 SSD (ESSD)、またはウルトラディスクを選択し、データディスクサイズを調整します。説明拡張 SSD (ESSD) を選択する場合、ディスク容量に基づいて異なるパフォーマンスレベル (PL) を設定し、さまざまなクラスターのパフォーマンス要件に対応できます。デフォルトのパフォーマンスレベルは PL1 です。ディスク容量に応じて、システムディスクは PL0、PL1、PL2 に、データディスクは PL0、PL1、PL2、PL3 に対応しています。クラウドディスクの詳細については、「クラウドディスクの概要」をご参照ください。 [Instances]: マスターノードグループには、デフォルトで 1 つのインスタンスがあります。高可用性が有効な場合、複数のマスターインスタンスを持つことができます。コアノードグループには、デフォルトで 2 つのインスタンスがあります。必要に応じてこの数を調整できます。 [Additional Security Group]：追加のセキュリティグループを使用すると、異なる外部リソースまたはアプリケーション間で柔軟なアクセス制御が可能になります。このノードグループには、最大 2 つの追加のセキュリティグループを関連付けることができます。 [Assign Public Network IP]：クラスターに Elastic IP (EIP) アドレスを割り当てるかどうかを指定します。デフォルトでは無効になっています。 DataLake クラスターのみが、ノードグループレベルでのパブリック IP の割り当てをサポートします。説明この機能を有効にせず、クラスターの作成後にパブリック IP アドレスを使用してクラスターにアクセスする場合は、ECS コンソールで申請する必要があります。詳細については、「EIP の申請」をご参照ください。
[クラスターのスケーリング]	必要に応じて自動スケーリングルールを選択できます。 [Auto Scaling ルールを使用しない] (デフォルト). [カスタム Auto Scaling ルール]: 時間ベースまたは負荷ベースの自動スケーリングのカスタムルールを定義できます。詳細については、「カスタム自動スケーリングルールを作成する」をご参照ください。 [マネージド Auto Scaling ルール]: クラスターを起動すると、EMR はマネージドスケーリングルールに基づいてタスクノード数を事前にプロビジョニングします。詳細については、「マネージド自動スケーリングルールを作成する」をご参照ください。説明自動スケーリングルールを設定できるのは、タスクノードグループの課金方法が従量課金またはプリエンプティブルインスタンスの場合のみです。クラスターに Trino、Presto、StarRocks、Impala、または ClickHouse コンポーネントが含まれる場合、マネージド自動スケーリングルールに切り替えることはできません。

基本設定

パラメーター

説明

[クラスター名]

クラスターの名前です。名前は 1～64 文字で、中国語、英字、数字、ハイフン (-)、アンダースコア (_) のみを使用できます。

[Identity Credentials]

Identity Credentials は、クラスターのマスターノードへの安全なアクセスを提供します。ログオン手順については、「クラスターにログオンする」をご参照ください。次の認証情報タイプがサポートされています:

[Key Pair] (デフォルト): 既存のキーペアを選択するか、Create Key Pair をクリックしてすぐに作成します。

キーペアは、パブリックキーとプライベートキーで構成され、Linux インスタンスへのログオンのための安全で便利な認証方法です。キーペアの使用方法の詳細については、「SSH キーペア」をご参照ください。
[Password]: マスターノードのログオンパスワードを設定し、確認します。デフォルトのユーザー名は root です。
- パスワードの要件：8～30 文字で、大文字、小文字、数字、特殊文字を含む必要があります。
- サポートされている特殊文字：感嘆符 (!)、アットマーク (@)、ハッシュ記号 (#)、ドル記号 ($)、パーセント記号 (%)、キャレット (^)、アンパサンド (&)、アスタリスク (*)。

詳細設定 (オプション)

パラメーター	説明
[ECS Application Role]	プログラムが EMR コンピューティングノードで実行される場合、OSS などの関連クラウドサービスにアクセスするために Alibaba Cloud AccessKey を指定する必要はありません。 EMR は一時的な AccessKey を自動的に取得し、そのキーの権限は ECS Application Role によって制御されます。
[Bootstrap Actions]	サービスが起動する前にクラスターノードで実行されるスクリプトです。ソフトウェアのインストールや環境のカスタマイズに使用します。詳細については、「ブートストラップアクションを使用したスクリプトの実行」をご参照ください。
[リリース保護]	この機能は、従量課金クラスターの誤削除を防ぎます。有効にした場合、クラスターをリリースする前に無効にする必要があります。詳細については、「リリース保護の有効化と無効化」をご参照ください。
[Tags]	クラスターの作成時または作成後にタグを追加できます。タグは、クラスターリソースの識別と管理に役立ちます。詳細については、「タグの管理」をご参照ください。
[Resource Group]	リソースグループを使用すると、クラウドリソースを目的、アクセス許可、または所有権別にグループ化できます。詳細については、「リソースグループの使用」をご参照ください。
[Data Disk Encryption]	この機能は、クラスターの作成時にのみ有効にできます。有効にすると、データディスク上の保存データが暗号化されます。詳細については、「データディスクの暗号化の有効化」をご参照ください。
[システムディスクの暗号化]	この機能は、クラスターの作成時にのみ有効にできます。有効にすると、オペレーティングシステム、プログラムファイル、およびシステムディスク上のその他の保存データが暗号化されます。詳細については、「システムディスクの暗号化の有効化」をご参照ください。
[Remarks]	クラスターに関する重要な情報を記録します。クラスターの作成後、基本情報ページで備考を追加または変更できます。

注文の確認

(任意) クラスターテンプレートとして保存：ログオン資格情報にKey Pairを選択した場合、クラスターテンプレートとして保存をクリックして、現在のクラスター設定をクラスターテンプレートとして保存できます。

クラスターテンプレートとして保存 ダイアログボックスで、クラスターテンプレート名 を入力し、クラスターテンプレートのリソースグループ を選択します。

パラメーター

説明

[クラスターテンプレート名]

管理を容易にするために、クラスターテンプレートの名前を入力します。名前は 1～64 文字で、中国語、英字、数字、ハイフン (-)、アンダースコア (_) のみを使用できます。

[クラスターテンプレートのリソースグループ]

既存のリソースグループを選択して、テンプレートを整理します。

新しいリソースグループを作成する必要がある場合は、下にあるCreate Resource Group.をクリックします。詳細については、「リソースグループの作成」をご参照ください。

決定をクリックします。

新しいクラスターテンプレートが クラスターテンプレートの管理 パネルに追加されます。クラスターテンプレートの詳細については、「クラスターテンプレートの作成」をご参照ください。

よくある質問

EntityNotExist.Role エラー

原因：現在のアカウントには、クラスターを作成するために必要な権限がありません。
解決策：

Alibaba Cloud アカウントまたは RAM ユーザーのどちらを使用しているかに応じて、適切な解決策を選択してください。
- Alibaba Cloud アカウント：クラスターを作成する際、アカウントには他の Alibaba Cloud リソースにアクセスし、関連する操作を実行するための権限が必要です。[RAM クイック権限付与] をクリックしてアカウントに権限を付与できます。権限付与が成功すると、クラスターを作成できます。ロールの権限付与については、「Alibaba Cloud アカウントへのロールの権限付与」をご参照ください。
- RAM ユーザー：お使いのアカウントには、EMR クラスターを作成する権限がありません。Alibaba Cloud アカウントを使用して、RAM ユーザーに AliyunEMRFullAccess ポリシーを付与することを推奨します。詳細については、「RAM ユーザーへの権限付与」をご参照ください。

E-MapReduce:クラスターの作成

前提条件

注意事項

手順

パラメータ

ソフトウェア構成

サービスおよびバージョンのパラメーター

その他のシナリオ

詳細設定 (オプション)

ハードウェア構成

基本設定

注文の確認

よくある質問

EntityNotExist.Role エラー

関連ドキュメント