EMR コンソールのウィザードを使用して、EMR on ECS 上に StarRocks クラスターを作成します。ウィザードに従って、ソフトウェア、ハードウェア、基本設定の 3 つのステップで設定を進め、クラスターをプロビジョニングします。
クラスター作成後は、クラスター名以外のパラメーターは変更できません。[確認] をクリックする前に、すべての設定を注意深く確認してください。
前提条件
開始する前に、以下が準備できていることを確認してください。
ターゲットリージョンに Virtual Private Cloud (VPC) があること。設定手順については、「VPC の作成と管理」をご参照ください。
その VPC 内のターゲットゾーンに vSwitch があること。設定手順については、「vSwitch の作成と管理」をご参照ください。
StarRocks クラスターの作成
手順の概要:
クラスター作成ページに移動します。
ソフトウェアパラメーターを設定します。
ハードウェアパラメーターを設定します。
基本パラメーターを設定します。
(オプション) クラスターテンプレートとして保存します。
確認と検証を行います。
ステップ 1: クラスター作成ページへの移動
EMR コンソールにログインします。左側のナビゲーションウィンドウで、EMR on ECS をクリックします。
(オプション) 上部のナビゲーションバーで、ターゲットリージョンとリソースグループを選択します。
リージョンはクラスター作成後に変更できません。デフォルトでは、アカウント内のすべてのリソースグループが表示されます。
[EMR on ECS] ページで、[クラスターの作成] をクリックします。
ステップ 2: ソフトウェアパラメーターの設定
| パラメーター | 必須 | 説明 |
|---|---|---|
| リージョン | はい | クラスターが作成されるリージョン。作成後は変更できません。 |
| ビジネスシナリオ | はい | [データ分析] を選択します。 |
| プロダクトバージョン | はい | EMR のバージョン。デフォルトでは最新バージョン (例: EMR-5.19.0) が選択されます。 |
| 高可用性 | いいえ | デフォルトではオフです。有効にすると、3 つのマスターノードがデプロイされ、ResourceManager と NameNode の可用性が確保されます。マスターノードの数を変更することもできます。 |
| オプションサービス | いいえ | 追加で含めるサービス。StarRocks をデプロイするには [STARROCKS3] を選択します。 |
| サービス運用ログの収集 | いいえ | デフォルトではオンです。クラスター診断専用のサービスログを収集します。これを無効にすると、EMR のヘルスチェックとサービス関連のサポートが制限されます。作成後、[基本情報] タブで [サービス運用ログの収集ステータス] パラメーターを変更します。詳細については、「サービス運用ログの収集を停止するにはどうすればよいですか?」をご参照ください。 |
| StarRocks アーキテクチャ | いいえ | [STARROCKS3] が選択されている場合にのみ利用可能です。ワークロードに基づいて選択します:[Shared-nothing] (デフォルト) は、コンピュートノード (CN) のローカルディスクにコンピューティングとストレージを統合します。これは、オンライン分析処理 (OLAP)、リアルタイム分析、ビジネスインテリジェンス (BI) レポートに最適です。[Shared-data] は、コンピューティングとストレージを分離します。CN はクエリタスクを実行し、データは外部の分散システムに保存されるため、システムの柔軟性と信頼性が向上します。このオプションは、大規模なデータストレージとエラスティックコンピューティングが必要なシナリオに適しています。 |
| DLF 統合メタデータ | いいえ | デフォルトで選択されています。アカウント ID を DLF カタログ ID として使用し、メタデータを Data Lake Formation (DLF) に保存します。このクラスターを別のカタログに関連付けるには、[カタログの作成] をクリックし、カタログ ID を入力して [OK]。その後、[DLF カタログ] ドロップダウンリストから新しいカタログを選択します。 |
| 詳細設定 | いいえ | デフォルトではオフです。[カスタムソフトウェア設定]。JSON ファイルを使用してコンポーネントパラメーター (Hadoop、Spark、Hive) をカスタマイズします。 |
ステップ 3: ハードウェアパラメーターの設定
| パラメーター | 必須 | 説明 |
|---|---|---|
| 課金方法 | はい | [サブスクリプション] が選択されています。短期間のテストや動的にスケジュールされたジョブには [従量課金] を使用します。料金は実際の使用時間に基づいて、毎時請求されます。本番ワークロードには [サブスクリプション] (前払い) を使用します。 |
| ゾーン | はい | 選択したリージョン内のゾーン。同じリージョン内のゾーンは内部ネットワークで接続されています。ほとんどの場合、デフォルトの選択で問題ありません。 |
| VPC | はい | 既存の VPC がデフォルトで選択されます。別の VPC を使用するには、VPC コンソールで作成します。 |
| vSwitch | はい | ターゲットゾーンの vSwitch を選択します。利用可能なものがない場合は、VPC コンソールで作成します。 |
| デフォルトのセキュリティグループ | はい | 既存のセキュリティグループがデフォルトで選択されます。新しいものを作成するには、[新しいセキュリティグループを作成] をクリックして Elastic Compute Service (ECS) コンソールを開きます。詳細については、「セキュリティグループの作成」および「概要」をご参照ください。 重要 ECS コンソールで作成された高度なセキュリティグループは使用しないでください。 |
| ノードグループ | はい | クラスターのノードグループを設定します。下記の「ノードグループの設定」をご参照ください。 |
ノードグループの設定
EMR クラスターは 3 種類のノードグループをサポートしています。
マスターノードグループ: コントロールプロセス (ResourceManager、NameNode) を実行します。デフォルトでは 1 つのマスターノードが設定されます。[高可用性] が有効な場合、複数のマスターノードを設定でき、それらは自動的にデプロイメントセットに追加され、ECS インスタンスが物理サーバー間に分散されます。
コアノードグループ: すべてのクラスターデータを保存します。デフォルトでは 2 つのコアノードが設定されます。作成後、ワークロードに応じてコアノードを追加します。
タスクノードグループ: ローカルデータストレージなしで追加の計算容量を提供します。デフォルトでは設定されません。[従量課金]、[プリエンプティブルインスタンス]、および [サブスクリプション] の課金方法をサポートします。
各ノードグループについて、以下を設定します。
| 設定 | オプション | 注意 |
|---|---|---|
| システムディスク | 標準 SSD、拡張 SSD、Ultra ディスク | 拡張 SSD はパフォーマンスレベル PL0、PL1、PL2 をサポートします。 |
| データディスク | 標準 SSD、拡張 SSD、Ultra ディスク | 拡張 SSD はパフォーマンスレベル PL0、PL1、PL2、PL3 をサポートします。デフォルトのパフォーマンスレベル: PL1。 |
| 追加のセキュリティグループ | 最大 2 つのセキュリティグループ | 外部リソースやアプリケーションとの対話を許可します。 |
| パブリックネットワーク IP の割り当て | デフォルトではオフ | クラスターに Elastic IP アドレス (EIP) を割り当てます。DataLake クラスターのノードグループでのみ利用可能です。有効になっていない場合、後でインターネットアクセスが必要になったら、ECS で EIP を申請してください。詳細については、「EIP を申請する」をご参照ください。 |
インスタンスタイプの選択方法については、「インスタンスファミリ」をご参照ください。
ステップ 4: 基本パラメーターの設定
[基本設定] ステップでパラメーターを設定します。
| パラメーター | 必須 | 説明 |
|---|---|---|
| クラスター名 | はい | 1~64 文字。英字、数字、ハイフン (-)、アンダースコア (_) を使用できます。これはクラスター作成後に変更できる唯一のパラメーターです。 |
| ID 認証情報 | はい | [キーペア] (デフォルト): Linux インスタンスにログインするための SSH キーペア。詳細については、「概要」をご参照ください。[パスワード]: マスターノードにログインするためのパスワード。8~30 文字で、大文字、小文字、数字、特殊文字 (! @ # $ % ^ & *) を含める必要があります。 |
(オプション) 詳細設定:
| パラメーター | 説明 |
|---|---|
| ECS アプリケーションロール | クラスターにアプリケーションロールを割り当てます。EMR はこのロールを使用して、他の Alibaba Cloud サービス (OSS など) にアクセスする際に一時的な AccessKey 認証情報をリクエストするため、手動で認証情報を入力する必要はありません。 |
| ブートストラップアクション | クラスターが起動する前にカスタムスクリリプトを実行します。ブートストラップアクションを使用して、ソフトウェアのインストールや実行環境の変更を行います。詳細については、「ブートストラップアクションを使用してスクリプトを実行する」をご参照ください。 |
| リリース保護 | 従量課金クラスターの誤ったリリースを防止します。クラスターをリリースする前に、リリース保護を無効化してください。詳細については、「リリース保護の有効化と無効化」をご参照ください。 |
| タグ | クラスターリソースを識別および管理するためのラベルです。作成後は、[基本情報] タブでタグを追加することもできます。詳細については、「タグの管理と使用」をご参照ください。 |
| リソースグループ | リソースを、使用量、権限、または所有権に基づいてグループ化します。「リソースグループを使用する」をご参照ください。 |
| データディスクの暗号化 | クラスター作成時のみ利用可能です。転送中のデータとディスク上の保存データの両方を暗号化します。詳細については、「データディスクの暗号化を有効にする」をご参照ください。 |
| システムディスクの暗号化 | クラスター作成時のみ利用可能です。システムディスク上のオペレーティングシステム、プログラムファイル、およびシステムデータを暗号化します。詳細については、「システムディスク暗号化を有効にする」をご参照ください。 |
| 備考 | クラスターに関する自由形式のメモ。作成後に [基本情報] タブで編集可能です。 |
ステップ 5: (オプション) クラスターテンプレートとして保存
このオプションは、ID 認証情報として [キーペア] が選択されている場合にのみ利用可能です。
[クラスターテンプレートとして保存] をクリックします。
ダイアログボックスで、以下を入力します。
パラメーター 説明 クラスターテンプレート名 1~64 文字。英字、数字、ハイフン (-)、アンダースコア (_) を使用できます。 クラスターテンプレートのリソースグループ テンプレートを整理するためのリソースグループを選択します。新しいリソースグループを作成するには、[リソースグループの作成] をクリックします。詳細については、「リソースグループの作成」をご参照ください。 [OK] をクリックします。
テンプレートは [クラスターテンプレートの管理] パネルに表示されます。 詳細については、「クラスターテンプレートの作成」をご参照ください。
ステップ 6: 確認と検証
[確認] をクリックします。
ページを更新して進捗をモニターします。[ステータス] が [実行中] と表示されたら、クラスターは準備完了です。
よくある質問
フロントエンド (FE) ノードとバックエンド (BE) ノードは、マスターノードとコアノードにどのように分散されますか?
FE ノードはマスターノード上で実行されます。デフォルトの単一マスターノードでは、1 つの FE がデプロイされます。[高サービス可用性] が有効になると、デフォルトで 3 つのマスターノードがデプロイされ、それぞれに 1 つの FE が実行されます。これにより、フォールトトレランスと負荷分散が実現されます。
BE ノードはコアノード上で実行され、デフォルトではコアノードごとに 1 つの BE が配置されます。BE の数は、設定したコアノードの数に応じてスケールします。