Alibaba Cloud E-MapReduce (EMR) は、Hadoop、Spark、Hive、Presto などのオープンソースのビッグデータフレームワークを構築・実行し、大規模なデータ処理と分析を支援します。このトピックでは、EMR on ECS クラスターの作成方法と、ビッグデータクラスターを迅速にセットアップ・管理するために必要な設定について説明します。
説明 2022年12月19日 17:00 (UTC+8) 以降に初めて EMR クラスターを作成する場合、Hadoop、Data Science、Presto、または Zookeeper のクラスタータイプは選択できません。
注意事項
EMR 5.12.1 以降または EMR 3.46.1 以降の DataLake、DataFlow、DataServing、および Custom クラスターでは、選択したサービスがコアノードに依存しない場合、Node Group セクションで Remove Node Group をクリックできます。
操作手順
E-MapReduce コンソールにログインします。
トップナビゲーションバーで、必要に応じてリージョンとリソースグループを選択します。
Create Cluster をクリックします。
プロンプトに従ってクラスターを設定します。
クラスターを作成する際には、ソフトウェア、ハードウェア、基本設定を行い、注文を確定する必要があります。
説明 クラスター作成後、クラスター名以外の設定は変更できません。クラスターを作成する前に、すべての設定を慎重に確認してください。
すべての情報が正しいことを確認したら、Confirm をクリックします。
設定の詳細
ソフトウェア設定
設定 | 説明 |
Region | リージョンはデータセンターが所在する地理的エリアです。ネットワーク遅延を減らすために、近接したリージョンを選択してください。インスタンス作成後にリージョンを変更することはできません。 [リージョン] ドロップダウンリストから、EMR インスタンスの物理的な場所を選択します。 |
Business Scenario | 実際のニーズに基づいてシナリオを選択します。 Data Lake: ビッグデータコンピュートエンジンを実行し、優れたデータ分析機能を提供できる、柔軟で信頼性が高く、効率的なクラスターを提供します。 詳細については、「DataLake クラスター」をご参照ください。 Data Analytics (OLAP):外部テーブルをインポートまたは使用して、ClickHouse や StarRocks などのオンライン分析処理 (OLAP) エンジンに大量のデータをロードします。これにより、ユーザーペルソナ、オーディエンスセグメンテーション、BI レポート、ビジネス分析などのシナリオで、効率的、リアルタイム、かつ柔軟なデータ分析が可能になります。 Real-time Data Streaming (DataFlow): EMR プラットフォーム上のワンストップのリアルタイムコンピューティングソリューションです。これには、分散型で高スループットかつスケーラブルなメッセージングシステムである Kafka と、公式 Apache Flink プロダクトをベースにした Ververica の商用 Flink カーネルという 2 つの主要コンポーネントが含まれます。さまざまなエンドツーエンドのリアルタイムコンピューティングの問題解決にフォーカスしており、リアルタイムの抽出・変換・書き出し (ETL) やログの収集と分析などのシナリオで広く使用されています。どちらかのコンポーネントを個別に使用することもできます。 Data Service (DataServing): 柔軟で信頼性が高く、効率的なデータサービスクラスターを提供します。 セミマネージドの HBase クラスターを提供し、OSS-HDFS (JindoFS) サービスに基づいて計算クラスターとデータストレージを分離できます。 JindoData ローカルキャッシュをサポートし、データサービスクラスターの読み書き性能をさらに向上させます。
詳細については、「DataServing クラスター」をご参照ください。 Custom Cluster: 豊富なサービスの組み合わせを提供します。必要に応じてサービスを選択します。
説明 本番環境では、同じノードグループに複数のストレージサービスをデプロイしないでください。
|
Product Version | EMR 製品のリリースバージョンです。詳細については、「リリースバージョン」をご参照ください。 |
High Service Availability | この機能はデフォルトで無効になっています。高可用性を有効にすると、EMR は複数のマスターノードを作成して、ResourceManager と NameNode の高可用性をサポートします。EMR は、障害のリスクを軽減するために、これらのノードを異なる基盤ハードウェアに分散させます。 |
Optional Services (Select One At Least) | 必要に応じて他のサービスを選択します。選択したサービスの関連サービスプロセスは、デフォルトで開始されます。
重要 選択するサービスが多いほど、マシンの構成要件は高くなります。次のステップで、サービスの数に基づいてインスタンスタイプを選択してください。そうしないと、クラスターがサービスを実行するためのリソースが不足する可能性があります。 インストールされたサービスはアンインストールできません。 設定するパラメーターは、製品バージョンと選択したサービスによって異なります。
|
サービス運用ログの収集を許可する | ワンクリックですべてのサービスのログ収集を有効または無効にできます。この機能は、サービス運用ログを収集するためにデフォルトで有効になっています。これらのログは、クラスターの診断にのみ使用されます。 クラスターの作成後、Basic Information ページで サービス実行ログの収集ステータス を変更します。 |
Metadata | メタデータは、次の方法で保存および管理できます。 DLF Unified Metadata (推奨): メタデータは Data Lake Formation (DLF) に保存されます。 DLF を有効化すると、システムによってデフォルトの DLF Catalog が選択されます。デフォルトのカタログは、お客様の UID です。クラスターごとに異なるデータカタログを使用する場合は、次のように新しいカタログを作成します。 Create Catalog をクリックします。表示されるダイアログボックスで、カタログ ID を入力し、OK をクリックします。 DLF Catalog ドロップダウンリストから、作成したデータカタログを選択します。
Self-managed RDS: お客様が管理するインスタンスまたは Alibaba Cloud RDS インスタンスをメタストアとして選択できます。 このオプションを選択した場合は、RDS 関連のパラメーターを設定します。詳細については、「セルフマネージド RDS データベースの設定」をご参照ください。 Built-in MySQL(非推奨):メタデータは、クラスターのローカル環境の MySQL データベースに保存されます。
|
クラスターストレージのルートパス | このパラメーターは、オプションサービスセクションで OSS-HDFS サービスを選択した場合に設定します。HDFS サービスを選択した場合は、このパラメーターは不要です。
重要 EMR コンソールで OSS-HDFS インスタンスの作成 をクリックして作成されたバケットは、EMR を介してのみ読み取りおよび書き込みができます。コンソールまたは API を介した操作はサポートされていません。 初めて OSS-HDFS サービスを使用する場合、Alibaba Cloud アカウントは こちら をクリックし、プロンプトに従って権限付与を完了する必要があります。 Resource Access Management (RAM) ユーザーの場合、Alibaba Cloud アカウントは、サービスを有効化するための権限付与を行い、AliyunEMRDlsFullAccess 権限、ならびに AliyunOSSDlsDefaultRole および AliyunEMRDlsDefaultRole ロールを付与する必要があります。 詳細については、「RAM ユーザーに権限を付与する」をご参照ください。 同一リージョンで OSS-HDFS サービスが有効化されているバケットを選択するか、OSS-HDFS インスタンスの作成 をクリックしてプロンプトに従い、クラスターのルートストレージパスとして OSS-HDFS インスタンスを作成します。
説明 OSS-HDFS サービスを使用する前に、選択したリージョンでサービスがサポートされていることを確認してください。そうでない場合は、リージョンを変更するか、OSS-HDFS サービスの代わりに HDFS サービスを使用してみてください。OSS-HDFS サービスをサポートするリージョンについては、「OSS-HDFS サービスへのアクセスの有効化と権限付与」をご参照ください。 EMR 5.12.1 以降または EMR 3.46.1 以降の DataLake、DataFlow、DataServing、およびカスタムクラスターでは、OSS-HDFS サービスを選択できます。
|
サービスとバージョンに関連する設定
以下の設定は、選択した製品バージョンとサービスによって異なります。
以下のパラメーターは、Hive サービスが選択されている場合、EMR 5.12.0 以前または EMR 3.46.0 以前でのみ必要です。
パラメーター | 説明 |
Hive ストレージモード | データウェアハウスのストレージディレクトリとして OSS-HDFS または OSS を使用します。チェックボックスをオフにすると、クラスターの HDFS がストレージディレクトリとして使用されます。 チェックボックスがデフォルトで選択されている場合は、[Hive データウェアハウスパス] も設定する必要があります。HDFS サービスが有効になっているバケットを選択することを推奨します。
説明 OSS または OSS-HDFS バケットへのアクセス権限があることを確認してください。 |
以下のパラメーターは、HBase サービスが選択されている場合、EMR 5.12.0 以前または EMR 3.46.0 以前でのみ必要です。
パラメーター | 説明 |
HBase ストレージモード | HBase データファイルを格納するために使用します。サポートされているモードは OSS-HDFS と OSS です。 OSS-HDFS モードを選択した場合は、HBase ストレージパス も設定する必要があります。HDFS サービスが有効になっているバケットを選択することを推奨します。 |
EMR 5.12.1 以降または EMR 3.46.1 以降で、OSS-HDFS と HBase サービスを選択した場合は、次のパラメーターを設定する必要があります。クラスター作成後、HBase-HDFS サービスが生成されます。詳細については、「HBASE-HDFS」をご参照ください。
パラメーター | 説明 |
ApsaraDB for HBase ログストレージ | このチェックボックスはデフォルトで選択されており、HBase が HLog ファイルを HDFS に保存することを示します。 |
その他のシナリオ
重要 2022年12月19日 17:00 (UTC+8) 以降に初めて EMR クラスターを作成する場合、以下のクラスタータイプは選択できません。
Machine Learning (データサイエンス): このクラスタータイプは、ビッグデータおよび AI シナリオ向けに設計されています。
分散型ディープラーニングフレームワークを提供します。
200 以上の古典的な機械学習アルゴリズムパッケージを提供します。
AutoML 機能と 10 以上のディープラーニングアルゴリズムを提供し、レコメンデーションや広告などのシナリオをカバーします。
旧バージョンデータレイク:このクラスタータイプは、大規模なデータ処理フレームワークとパイプラインを構築するためのものです。ビッグデータ分析に適しており、Apache Hive、Spark、Presto などのオープンソースフレームワークをサポートしています。以下のクラスタータイプがサポートされています:
(オプション) 詳細設定
設定 | 説明 |
Kerberos Authentication | この機能はデフォルトで無効になっています。Kerberos は、対称鍵技術に基づく ID 認証プロトコルです。他のサービスに ID 認証を提供できます。詳細については、「Kerberos」をご参照ください。 |
Custom Software Configuration | JSON ファイルを指定して、Hadoop、Spark、Hive などのクラスター内の基本ソフトウェアを設定できます。詳細については、「カスタムソフトウェアの設定」をご参照ください。この機能はデフォルトで無効になっています。 |
ハードウェア設定
設定 | 説明 |
支払いタイプ | デフォルトの課金方法はサブスクリプションです。次の課金方法がサポートされています。 |
Zone | ゾーンは、同一リージョン内の異なる物理エリアです。同一リージョン内のゾーンは、内部ネットワークを介して相互に通信できます。通常はデフォルトのゾーンを使用できます。 |
VPC | Virtual Private Cloud (VPC) は、Alibaba Cloud で定義する分離されたネットワーク環境です。VPC を完全に制御できます。 既存の VPC を選択するか、VPC の作成 をクリックして VPC コンソールに移動し、VPC を作成します。 詳細については、「VPC の作成と管理」をご参照ください。
説明 クラスターのプライベート IP は VPC にバインドされているため、クラスター作成後にプライベート IP アドレスを変更することはできません。 |
vSwitch | vSwitch は、異なるクラウドリソースを接続する VPC の基本的なネットワークモジュールです。 既存の vSwitch を選択するか、. Create vSwitch をクリックして VPC コンソールに移動し、vSwitch を作成します。 詳細については、「vSwitch の作成と管理」をご参照ください。 |
Default Security Group | セキュリティグループは、セキュリティグループ内のインスタンスのインバウンドおよびアウトバウンドトラフィックを制御する仮想ファイアウォールです。詳細については、「セキュリティグループの概要」をご参照ください。 既存のセキュリティグループを選択するか、create a new security group. をクリックして ECS コンソールに移動し、新しいセキュリティグループを作成します。 詳細については、「セキュリティグループの作成」をご参照ください。
重要 ECS で作成された高度なセキュリティグループは使用しないでください。 |
Node Group | 必要に応じてインスタンスタイプを選択します。詳細については、「インスタンスファミリー」をご参照ください。 [マスター]:主に ResourceManager や NameNode などの制御プロセスをデプロイする役割を担います。 [コア]:主にクラスターのすべてのデータを保存する役割を担います。クラスター作成後に必要に応じてコアノードをスケールアウトすることもできます。 [タスク]:データを保存しません。クラスターの計算能力を調整するために使用されます。これはデフォルトで無効になっていますが、必要に応じて設定できます。
重要 タスクノードグループでサポートされている課金方法は、従量課金、スポットインスタンス、サブスクリプションです。 Add to Deployment Set: 高可用性が有効になると、マスターノードはデフォルトでデプロイメントセットに追加されます。デプロイメントセットは、インスタンスの配置を制御するポリシーです。詳細については、「デプロイメントセット」をご参照ください。 System Disk: 必要に応じて、標準 SSD、ESSD (エンタープライズ SSD)、または Ultra ディスクを選択し、システムディスクサイズを調整します。 Data Disk: 必要に応じて、標準 SSD、ESSD、または Ultra ディスクを選択し、データディスクサイズを調整します。
説明 ESSD を選択する場合、選択したディスクの容量に基づいて異なるパフォーマンスレベル (PL) を設定し、さまざまなクラスターパフォーマンス要件を満たすことができます。デフォルトのパフォーマンスレベルは PL1 です。ディスク容量の範囲に基づいて、システムディスクは PL0、PL1、PL2 の ESSD 仕様をサポートし、データディスクは PL0、PL1、PL2、PL3 の ESSD 仕様をサポートします。クラウドディスクの詳細については、「クラウドディスクの概要」をご参照ください。 Instances: Master ノードグループには、デフォルトで 1 つのインスタンスがあります。高可用性が有効な場合、複数の Master インスタンスを持つことができます。 コアノードグループには、デフォルトで 2 つのインスタンスがあります。必要に応じてこの数を調整できます。 Additional Security Group: 追加のセキュリティグループを使用すると、異なる外部リソースまたはアプリケーション間のアクセスを柔軟にカスタマイズできます。このノードグループには、最大 2 つの追加のセキュリティグループを関連付けることができます。 Assign Public Network IP: クラスターに Elastic IP アドレス (EIP) を割り当てるかどうかを指定します。デフォルトでは無効になっています。ノードグループレベルでのパブリック IP の割り当ては、DataLake クラスターでのみサポートされています。
説明 この機能を有効にせず、作成後にパブリック IP アドレスを使用してクラスターにアクセスしたい場合は、ECS でパブリック IP アドレスを申請してください。詳細については、「EIP の申請」をご参照ください。
|
クラスターのスケーリング | 必要に応じてスケーリングルールを選択します。 Auto Scaling ルールを使用しない (デフォルト)。 カスタム Auto Scaling ルール: カスタム Auto Scaling ルールを作成して、時間または負荷に基づく自動スケーリングを有効にします。 詳細については、「カスタム Auto Scaling ルールを作成する」をご参照ください。 マネージド Auto Scaling ルール: クラスターの起動時に、EMR はマネージドスケーリングルールに基づいてタスクノード数を事前に割り当てます。詳細については、「マネージド Auto Scaling ルールを作成する」をご参照ください。
|
基本設定
設定項目 | 説明 |
Cluster Name | クラスターの名前です。名前は 1~64 文字で、漢字、英字、数字、ハイフン (-)、アンダースコア (_) を使用できます。 |
Identity Credentials | Identity Credentials は、クラスターのマスターノードに安全にログインするために使用されます。ログイン操作については、「クラスターにログインする」をご参照ください。以下の ID がサポートされています。 Key Pair (デフォルト): 既存のキーペアを選択するか、Create Key Pair をクリックしてすぐに作成します。 キーペアは、公開鍵と秘密鍵で構成される、安全で便利なログイン認証方式です。Linux インスタンスでのみサポートされています。キーペアの使用方法の詳細については、「SSH キーペア」をご参照ください。 Password: マスターノードのログインパスワードを設定して確認します。デフォルトのユーザー名はルートです。
|
(オプション) 詳細設定
設定 | 説明 |
ECS Application Role | EMR コンピュートノードでプログラムを実行する場合、Alibaba Cloud AccessKey を入力することなく、OSS などの他の Alibaba Cloud サービスにアクセスできます。EMR は、アクセスを承認するために一時的な AccessKey を自動的にリクエストします。ECS Application Role は、この AccessKey の権限をコントロールします。 |
Bootstrap Actions | クラスターが起動する前に実行されるスクリプトです。これらを使用して、サードパーティのソフトウェアをインストールしたり、クラスターのランタイム環境を変更したりできます。詳細については、「ブートストラップアクションを使用してスクリプトを実行する」をご参照ください。 |
リリース保護 | 従量課金クラスターを作成する際、またはクラスター作成後にリリース保護を有効にして、クラスターが誤ってリリースされるのを防ぐことができます。リリース保護を有効にすると、クラスターを直接リリースすることはできません。クラスターをリリースするには、まずリリース保護を無効にする必要があります。詳細については、「リリース保護の有効化と無効化」をご参照ください。 |
Tags | クラスターを作成する際にタグをアタッチするか、クラスター作成後に追加できます。これにより、クラスターリソースの識別と管理が容易になります。詳細については、「タグの設定」をご参照ください。 |
Resource Group | リソースグループを使用すると、目的、権限、所有者ごとにクラウドリソースをグループ化できます。詳細については、「リソースグループの使用」をご参照ください。 |
Data Disk Encryption | この機能は、クラスターを作成するときにのみ有効にできます。この機能を有効にすると、転送中のデータとデータディスク上の保存データの両方が暗号化されます。詳細については、「データディスクの暗号化を有効にする」をご参照ください。 |
システムディスクの暗号化 | この機能は、クラスターを作成するときにのみ有効にできます。この機能を有効にすると、オペレーティングシステム、プログラムファイル、およびシステムディスク上のその他のシステム関連データが暗号化されます。詳細については、「システムディスクの暗号化を有効にする」をご参照ください。 |
Remarks | クラスターに関する重要な情報を記録します。クラスターの作成後、Basic Information ページで備考を変更します。クラスターの作成時に備考を設定しない場合は、作成後にこのパラメーターを編集します。 |
注文の確認
(任意) クラスターテンプレートとして保存: 身分認証にKey Pairを選択した場合、クラスターテンプレートとして保存をクリックして現在のクラスター構成をテンプレートとして保存できます。
クラスターテンプレートとして保存 ダイアログボックスで、クラスターテンプレート名 を入力し、クラスターテンプレートのリソースグループ を選択します。
パラメーター | 説明 |
クラスターテンプレート名 | 後の管理を容易にするために、クラスターテンプレートの名前を入力します。名前は 1~64 文字で、漢字、英字、数字、ハイフン (-)、アンダースコア (_) のみ使用できます。 |
クラスターテンプレートのリソースグループ | 必要に応じて既存のリソースグループを選択し、グループごとにテンプレートを管理します。 新しいリソースグループを作成するには、Create Resource Group. をクリックします。詳細については、「リソースグループの作成」をご参照ください。 |
OK をクリックします。
新しいクラスターテンプレートが クラスターテンプレートの管理 パネルに追加されます。クラスターテンプレートの詳細については、「クラスターテンプレートの作成」をご参照ください。
よくある質問
クラスター作成時に "EntityNotExist.Role" エラーが報告された場合の対処方法