このトピックでは、StarRocks クラスタを作成および構成する方法について説明します。
前提条件
StarRocks クラスタを作成するリージョンに、VPC と vSwitch が作成されていること。詳細については、「VPC の作成と管理」および「vSwitch の作成と管理」をご参照ください。
手順
クラスタ作成ページに移動します。
EMR コンソール にログインします。左側のナビゲーションウィンドウで、[EMR on ECS] をクリックします。
オプション。 上部のナビゲーションバーで、クラスタを作成するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
クラスタのリージョンは、クラスタの作成後に変更することはできません。
デフォルトでは、アカウント内のすべてのリソースグループが表示されます。
[EMR on ECS] ページで、[クラスタの作成] をクリックします。
クラスタを構成します。
クラスタを作成するには、ウィザードのガイダンスに従って、ソフトウェアパラメータ、ハードウェアパラメータ、および基本パラメータを構成する必要があります。
重要クラスタが作成された後、クラスタ名以外のパラメータを変更することはできません。クラスタを作成するときは、すべてのパラメータが正しく構成されていることを確認してください。
ソフトウェアパラメータを構成します。
パラメータ
例
説明
リージョン
中国 (杭州)
クラスタを作成するリージョン。クラスタの作成後にリージョンを変更することはできません。
ビジネスシナリオ
データ分析
[データ分析] を選択します。
プロダクトバージョン
EMR-5.19.0
EMR のバージョン。デフォルトでは、最新バージョンが選択されています。
高可用性サービス
オフ
デフォルトでは、このスイッチはオフになっています。このスイッチをオンにすると、ResourceManager プロセスと NameNode プロセスの可用性を確保するために、クラスタ内に 3 つのマスターノードが作成されます。マスターノードの数を変更することもできます。
オプションサービス
STARROCKS3
ビジネス要件に基づいて選択できるその他のサービス。デフォルトでは、指定したサービスの関連プロセスが開始されます。
サービス運用ログの収集
オン
すべてのサービスのログ収集を有効にするかどうかを指定します。デフォルトでは、このスイッチはオンになっており、クラスタのサービス運用ログが収集されます。ログはクラスタの診断にのみ使用されます。
クラスタを作成した後、[基本情報] タブで [サービス運用ログの収集ステータス] パラメータを変更できます。
重要このスイッチをオフにすると、EMR クラスタのヘルスチェックとサービス関連のテクニカルサポートが制限されます。ログ収集を無効にする方法と、ログ収集の無効化による影響の詳細については、「サービス運用ログの収集を停止するにはどうすればよいですか?」をご参照ください。
StarRocks アーキテクチャ
Shared-nothing
このパラメータは、STARROCKS3 を選択した場合にのみ使用できます。
StarRocks のアーキテクチャ。有効な値:
Shared-nothing:このアーキテクチャでは、計算リソースはストレージリソースと統合され、データは計算ノード (CN) のローカルディスクに保存されます。これはデフォルト値です。
このオプションは、データ分析やビジネスインテリジェンス (BI) レポートの生成など、リアルタイム処理と高速クエリを必要とするオンライン分析処理 (OLAP) シナリオに適しています。
Shared-data:このアーキテクチャでは、計算リソースとストレージリソースは分離されています。CN はクエリタスクを実行するために使用され、データは外部の分散システムに保存されます。これにより、システムの柔軟性と信頼性が向上します。
このオプションは大規模データストレージとエラスティックコンピューティングを必要とするシナリオに適しています。
DLF 統合メタデータ
選択済み
デフォルトでは、チェックボックスがオンになっています。これは、メタデータが Data Lake Formation (DLF) に保存されることを示します。
DLF をアクティブ化すると、システムはメタデータを保存するために [DLF カタログ] を選択します。デフォルトでは、アカウントの ID が使用されます。異なるクラスタを異なる DLF カタログに関連付ける場合は、次の操作を実行して DLF カタログを作成できます。
[カタログの作成] をクリックします。表示されるポップオーバーで、カタログ ID を入力し、[OK] をクリックします。
[DLF カタログ] ドロップダウンリストから、作成したカタログを選択します。
詳細設定
オフ
[カスタムソフトウェア構成]:ソフトウェア設定をカスタマイズします。JSON ファイルを使用して、Hadoop、Spark、Hive など、クラスタに必要な基本コンポーネントのパラメータをカスタマイズできます。 デフォルトでは、このスイッチはオフになっています。
ハードウェアパラメータを構成します。
パラメータ
例
説明
課金方法
従量課金
デフォルトでは、サブスクリプションが選択されています。EMR は、次の課金方法をサポートしています。
従量課金:クラスタを使用した後にクラスタの料金を支払うことができる課金方法。システムは、クラスタが実際に使用された時間に基づいてクラスタの料金を請求します。請求書は、毎時間の上部に 1 時間単位で生成されます。短期間のテストジョブまたは動的にスケジュールされたジョブには、従量課金クラスタを使用することをお勧めします。
サブスクリプション:クラスタの料金を支払った後にのみクラスタを使用できる課金方法。
説明テスト実行には、[従量課金] クラスタを作成することをお勧めします。クラスタがテストに合格した場合は、本番用に [サブスクリプション] クラスタを作成できます。
ゾーン
ゾーン I
クラスタを作成するゾーン。ゾーンは、同じリージョン内にある異なる地理的領域です。これらは内部ネットワークで相互接続されています。ほとんどの場合、デフォルトで選択されているゾーンを使用できます。
VPC
starrocks_test/vpc-bp1f4epmkvncimpgs****
デフォルトでは、既存の VPC が選択されています。
新しい VPC を使用する場合は、VPC コンソールに移動して VPC を作成します。詳細については、「VPC の作成と管理」をご参照ください。
vSwitch
vsw_test/vsw-bp1e2f5fhaplp0g6p****
VPC の指定されたゾーンで vSwitch を選択します。ゾーンで vSwitch を使用できない場合は、VPC コンソールに移動して、ゾーンに vSwitch を作成します。詳細については、「vSwitch の作成と管理」をご参照ください。
デフォルトセキュリティグループ
sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****
クラスタのセキュリティグループ。デフォルトでは、既存のセキュリティグループが選択されています。セキュリティグループの詳細については、「概要」をご参照ください。
[新しいセキュリティグループの作成] をクリックして、Elastic Compute Service (ECS) コンソールでセキュリティグループを作成することもできます。詳細については、「セキュリティグループの作成」をご参照ください。
重要ECS コンソールで作成された高度なセキュリティグループは使用しないでください。
ノードグループ
デフォルト値
クラスタのノードグループ。ビジネス要件に基づいてインスタンスタイプを選択できます。詳細については、「インスタンスファミリ」をご参照ください。
マスターノードグループ:ResourceManager や NameNode などの制御プロセスを実行します。
コアノードグループ:クラスタのすべてのデータを保存します。クラスタの作成後に、ビジネス要件に基づいてコアノードを追加できます。
タスクノードグループ:データは保存されず、クラスタの計算能力を調整するために使用されます。デフォルトでは、タスクノードグループは構成されていません。ビジネス要件に基づいてタスクノードグループを構成できます。
重要タスクノードグループの [課金方法] パラメータには、[従量課金]、[プリエンプティブインスタンス]、または [サブスクリプション] を選択できます。
デプロイメントセットに追加:高可用性スイッチをオンにすると、デフォルトでマスターノードがデプロイメントセットに追加されます。デプロイメントセットは、ECS インスタンスの分散を制御するために使用されます。詳細については、「デプロイメントセット」をご参照ください。
システムディスク:ビジネス要件に基づいて、標準 SSD、拡張 SSD、または Ultra ディスクを選択できます。ビジネス要件に基づいてシステムディスクのサイズを調整できます。
データディスク:ビジネス要件に基づいて、標準 SSD、拡張 SSD、または Ultra ディスクを選択できます。ビジネス要件に基づいてデータディスクのサイズを調整できます。
説明拡張 SSD を選択した場合は、異なるクラスタパフォーマンス要件を満たすために、ディスク容量に基づいて拡張 SSD の異なるパフォーマンスレベル (PL) を指定できます。デフォルトのパフォーマンスレベルは PL1 です。システムディスクを構成する場合は、PL0、PL1、および PL2 のパフォーマンスレベルの拡張 SSD を選択できます。データディスクを構成する場合は、PL0、PL1、PL2、および PL3 のパフォーマンスレベルの拡張 SSD を選択できます。詳細については、「ディスク」をご参照ください。
インスタンス:デフォルトでは、1 つのマスターノードが構成されています。高可用性スイッチをオンにすると、複数のマスターノードを構成できます。
デフォルトでは、コアノードグループに 2 つのコアノードが構成されています。ビジネス要件に基づいてコアノードの数を変更できます。
追加セキュリティグループ:追加セキュリティグループを使用すると、異なる外部リソースとアプリケーション間の相互作用が可能になります。ノードグループには、最大 2 つの追加セキュリティグループを関連付けることができます。
パブリックネットワーク IP の割り当て:クラスタに EIP アドレスを関連付けるかどうかを指定します。このスイッチはデフォルトではオフになっています。パブリック IP アドレスは、DataLake クラスタのノードグループにのみ割り当てることができます。
説明このスイッチをオンにしないが、クラスタの作成後にインターネット経由でクラスタにアクセスする場合は、ECS でパブリック IP アドレスを申請する必要があります。EIP アドレスの申請方法については、「EIP の申請」をご参照ください。
基本パラメータを構成します。
[基本構成] ステップでパラメータを構成します。
パラメータ
例
説明
クラスタ名
Emr-StarRocks
クラスタの名前。名前は 1 ~ 64 文字で、文字、数字、ハイフン (-)、およびアンダースコア (_) のみを含めることができます。
身元証明書
パスワード
キーペア:Linux インスタンスにログインするために使用される SSH キーペア。この値はデフォルトで選択されています。
キーペアの使用方法については、「概要」をご参照ください。
パスワード:マスターノード (Linux インスタンス) にログインするために使用されるパスワード。
パスワードは 8 ~ 30 文字で、大文字、小文字、数字、および特殊文字を含める必要があります。
次の特殊文字がサポートされています。! @ # $ % ^ & *
オプション。身分認証に [キーペア] を使用している場合は、[クラスタテンプレートとして保存] をクリックして、現在のクラスタの構成をクラスタテンプレートとして保存できます。
クラスターテンプレートとして保存 ダイアログボックスで、クラスターテンプレート名 パラメーターと [クラスタテンプレートリソースグループ] パラメーターを構成します。
パラメーター
説明
クラスターテンプレート名
テンプレート管理を容易にするために、クラスタテンプレート名を入力します。名前は 1 ~ 64 文字で、英字、数字、ハイフン(-)、およびアンダースコア(_)のみを含めることができます。
[クラスタテンプレートリソースグループ]
ビジネス要件に基づいて既存のリソースグループを選択し、グループごとにクラスタテンプレートを管理します。
新しいリソースグループを使用する場合は、[リソースグループの作成] をクリックして作成します。詳細については、「リソースグループを作成する」をご参照ください。
[OK] をクリックします。
クラスターテンプレートの管理 パネルでクラスタテンプレートが作成されます。クラスタテンプレートの詳細については、「クラスタテンプレートを作成する」をご参照ください。
[確認] をクリックします。
ページを更新して、作成の進捗状況を表示します。[ステータス] が [実行中] になったら、クラスタが作成されています。