このトピックでは、Kafka サービスと共にデプロイされる Dataflow クラスターである Dataflow Kafka クラスターを作成および構成する方法について説明します。
制限事項
Kafka は、E-MapReduce(EMR)V5.18.0、EMR V3.52.0、および EMR V5.18.0 または V3.52.0 より前のマイナーバージョンではサポートされなくなりました。 ApsaraMQ for Kafka を使用するか、Kafka を手動でインストールすることをお勧めします。
注意事項
Dataflow Kafka クラスターを作成する場合は、適切なタイプの Elastic Compute Service(ECS)インスタンスを選択し、ビジネスの推定負荷に基づいてブローカーの数を決定する必要があります。 ビジネスシナリオが多様であるため、一般的なクラスタープランを提供することはできません。 実際の環境に基づいてクラスターを作成する必要があります。 ほとんどの場合、インスタンスタイプを選択する際には、次の項目を考慮することをお勧めします。
CPU とメモリの比率が 1:4 の ECS インスタンスに Kafka ブローカーをデプロイします。
クラウドディスクを使用してデータを保存します。
クラウドディスクの I/O スループットとネットワークインターフェースコントローラー(NIC)帯域幅の関係を考慮します。
デプロイパラメーターを構成する際には、次の要素を考慮してください。
EMR で使用される Kafka のバージョンは、ZooKeeper サービスに依存します。 ZooKeeper の可用性によって、Kafka サービスの高可用性が決まります。 クラスターを作成するときは、高可用性をオンにすることをお勧めします。 クラスターの作成時に高可用性をオンにすると、ZooKeeper サービス用に 3 つのノードがデプロイされます。
マスターノードグループが ZooKeeper のデプロイにのみ使用される場合は、マスターノードグループに 1 つのデータディスクのみを構成する必要があります。
評価ベースの提案の詳細については、「クラスターリソースを評価するための提案」をご参照ください。
手順
クラスター作成ページに移動します。
EMR コンソール にログオンします。 左側のナビゲーションペインで、[ECS 上の EMR] をクリックします。
オプション。 上部のナビゲーションバーで、ビジネス要件に基づいてリージョンとリソースグループを選択します。
クラスターの作成後、クラスターのリージョンを変更することはできません。
デフォルトでは、アカウントのすべてのリソースグループが表示されます。
[ECS 上の EMR] ページで、[クラスターの作成] をクリックします。
クラスターを構成します。
クラスターを作成するには、ウィザードのガイダンスに従って、ソフトウェアパラメーター、ハードウェアパラメーター、および基本パラメーターを構成する必要があります。
重要クラスターの作成後、クラスター名以外の パラメーターを変更することはできません。 クラスターを作成するときは、すべてのパラメーターが正しく構成されていることを確認してください。 詳細については、「クラスターの作成」をご参照ください。
ソフトウェアパラメーターを構成します。
パラメーター
例
説明
リージョン
中国 (杭州)
クラスターを作成するリージョン。 クラスターの作成後、クラスターのリージョンを変更することはできません。
ビジネスシナリオ
リアルタイムデータストリーミング
クラスターを使用するシナリオ。 [リアルタイムデータストリーミング] を選択します。
製品バージョン
EMR-3.43.1
EMR のバージョン。 EMR バージョンを選択すると、各サービスのバージョンを表示できます。
たとえば、EMR V3.43.1 クラスターでは、Kafka のバージョンは 2.12_2.4.1 です。 値 2.12 は Scala バージョンを示し、値 2.4.1 はオープンソース Kafka のバージョンを示します。
高可用性
オン
デフォルトでは、スイッチはオフになっています。
重要クラスターの作成時に高可用性をオンにすると、ZooKeeper サービス用にマスターノードグループに 3 つのノードがデプロイされます。 EMR で使用される Kafka のバージョンは、ZooKeeper サービスに依存します。 したがって、クラスターを作成するときは、高可用性をオンにすることをお勧めします。
オプションサービス (少なくとも 1 つ選択)
Kafka
クラスターにデプロイするサービス。 [kafka] を選択します。
ビジネス要件に基づいて他のサービスを選択できます。 デフォルトでは、選択したサービスの関連コンポーネントが起動されます。
サービス運用ログの収集
オン
すべてのサービスのログ収集を有効にするかどうかを指定します。 デフォルトでは、このスイッチはオンになっており、クラスターのサービス運用ログが収集されます。 ログは、クラスターの診断にのみ使用されます。
クラスターを作成した後、[基本情報] タブで [サービス運用ログの収集ステータス] パラメーターを変更できます。
重要このスイッチをオフにすると、EMR クラスターのヘルスチェックとサービス関連のテクニカルサポートが制限されます。 ログ収集を無効にする方法と、ログ収集の無効化によってもたらされる影響の詳細については、「サービス運用ログの収集を停止するにはどうすればよいですか?」をご参照ください。
ハードウェアパラメーターを構成します。
パラメーター
例
説明
課金方法
従量課金制
クラスターの課金方法。 デフォルトでは、サブスクリプションが選択されています。 EMR は、次の課金方法をサポートしています。
[従量課金制]: インスタンスを使用した後にインスタンスの料金を支払うことができる課金方法。 システムは、クラスターが実際に使用された時間数に基づいてクラスターの料金を請求します。 請求書は、毎時間の上部に 1 時間単位で生成されます。 短期テストジョブまたは動的にスケジュールされたジョブには、従量課金制クラスターを使用することをお勧めします。
[サブスクリプション]: インスタンスの料金を支払った後にのみインスタンスを使用できる課金方法。
説明テスト実行には、[従量課金制] クラスターを作成することをお勧めします。 クラスターがテストに合格した場合は、本番用に [サブスクリプション] クラスターを作成できます。
ゾーン
ゾーン I
クラスターを作成するゾーン。 リージョン内のゾーンは、独立した電源とネットワーク設備を備えた物理的な領域です。 同じリージョン内のゾーンにあるクラスターは、内部ネットワークを介して相互に通信できます。 ほとんどの場合、デフォルトで選択されているゾーンを使用できます。
VPC
emr_test/vpc-bp1f4epmkvncimpgs****
クラスターをデプロイする仮想プライベートクラウド (VPC)。 既存の VPC がデフォルトで選択されています。
新しい VPC を使用する場合は、VPC コンソールに移動して VPC を作成します。 詳細については、「VPC の作成と管理」をご参照ください。
vSwitch
vsw_test/vsw-bp1e2f5fhaplp0g6p****
クラスターの vSwitch。 ビジネス要件に基づいて、特定のゾーンの vSwitch を選択します。 ゾーンで vSwitch を使用できない場合は、VPC コンソールに移動して vSwitch を作成します。 詳細については、「vSwitch の作成と管理」をご参照ください。
デフォルトセキュリティグループ
sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****
クラスターのセキュリティグループ。 デフォルトでは、既存のセキュリティグループが選択されています。 セキュリティグループの詳細については、「概要」をご参照ください。
[新しいセキュリティグループの作成] をクリックして、ECS コンソールでセキュリティグループを作成することもできます。 詳細については、「セキュリティグループの作成」をご参照ください。
重要ECS コンソールで作成された高度なセキュリティグループは使用しないでください。
ノードグループ
ビジネス要件に基づいて設定を構成します
[インスタンスタイプ]: ビジネス要件に基づいて、または評価ベースの提案に基づいて、インスタンスタイプと仕様を選択できます。 評価ベースの提案の詳細については、「クラスターリソースを評価するための提案」をご参照ください。
[デプロイメントセットに追加]: 高可用性をオンにすると、マスターノードはデフォルトでデプロイメントセットに追加されます。 デプロイメントセットの詳細については、「デプロイメントセットへのノードの追加」をご参照ください。
[システムディスク]: ビジネス要件に基づいてシステムディスクのタイプを選択できます。
[システムディスクサイズ]: ビジネス要件に基づいてディスクのサイズを指定できます。 推奨される最小ディスクサイズは 120 GiB です。 有効な値: 80 ~ 500。 単位: GiB。
[データディスク]: ビジネス要件に基づいてデータディスクのタイプを選択できます。
説明クラウドディスクタイプを選択することをお勧めします。
[データディスクサイズ]: ビジネス要件に基づいてディスクのサイズを指定できます。 推奨される最小ディスクサイズは 80 GiB です。 有効な値: 40 ~ 32768。 単位: GiB。
[インスタンス]: デフォルトでは、3 つのマスターノードと 3 つのコアノードがデプロイされます。
[追加のセキュリティグループ]: ノードグループには、最大 2 つの追加のセキュリティグループを関連付けることができます。 追加のセキュリティグループを使用すると、異なる外部リソースとアプリケーションを柔軟に操作できます。
[パブリックネットワーク IP の割り当て]: クラスターに Elastic IP アドレス (EIP) を関連付けるかどうかを指定します。 デフォルトでは、このスイッチはオフになっています。
説明EIP アドレスの申請方法については、「Elastic IP Addressとは何ですか?」をご参照ください。
基本パラメーターを構成します。
[基本情報] ステップでパラメーターを構成します。
重要次の表はすべてのパラメーターについて説明しています。 ただし、[詳細設定] セクションのパラメーターはサポートされていません。 このセクションのパラメーターは構成しないでください。
パラメーター
例
説明
クラスター名
Emr-Kafka
クラスターの名前。 名前の長さは 1 ~ 64 文字で、文字、数字、ハイフン (-)、およびアンダースコア (_) のみを含めることができます。
ID 認証情報
カスタムパスワード
[キーペア] (デフォルト): SSH キーペアを使用して Linux インスタンスにアクセスします。
SSH キーペアの使用方法については、「SSH キーペアの概要」をご参照ください。
パスワード: マスターノードに設定したパスワードを使用して Linux インスタンスにアクセスします。
パスワードの長さは 8 ~ 30 文字で、大文字、小文字、数字、および特殊文字を含める必要があります。
次の特殊文字がサポートされています: ! @ # $ % ^ & *
[確認] ステップで、[サービス規約] を読んでチェックボックスをオンにします。
[確認] をクリックします。
[ECS 上の EMR] ページを更新して、作成の進行状況を表示します。 [ステータス] が [実行中] になると、クラスターが作成されます。
次のステップ
クラスターの作成後、本番要件に合わせてクラスターのデフォルトパラメーターの値を変更できます。 例:
EMR Kafka クラスターの SSL 暗号化機能を有効にするかどうかを指定します。 詳細については、「SSL を使用して Kafka データを暗号化する」をご参照ください。
EMR Kafka クラスターのログオン認証を実行するために、Simple Authentication and Security Layer (SASL) 機能を有効にするかどうかを指定します。 詳細については、「SASL を使用して Kafka クラスターにログオンする」をご参照ください。