すべてのプロダクト
Search
ドキュメントセンター

Elastic High Performance Computing:自動スケーリングの構成

最終更新日:Mar 20, 2025

Elastic High Performance Computing(E-HPC)は、構成された自動スケーリングポリシーに基づいて計算ノードを動的に割り当てることができる自動スケーリング機能を提供します。 システムは、リアルタイムのワークロードに基づいて計算ノードを自動的に追加または削除し、クラスタの可用性を向上させ、コストを節約できます。 このトピックでは、自動スケーリングを構成する方法について説明します。

メリット

  • クラスタのリアルタイムワークロードに基づいて計算ノードを追加し、クラスタの可用性を向上させます。

  • クラスタの可用性を損なうことなく、計算ノードの数を減らしてコストを節約します。

  • 障害のあるノードを停止し、ノードを作成してフォールトトレランスを向上させます。

制限事項

  • すべてのノードが Linux オペレーティングシステムを実行しているクラスタに対してのみ、自動スケーリングを構成できます。

  • PBS、Slurm、Deadline、または SGE スケジューラを使用するクラスタに対してのみ、自動スケーリングを構成できます。

  • E-HPC は、メモリ使用量に基づく自動スケーリングをサポートしていません。

    重要

    自動スケーリングを効果的に実装するには、ジョブを送信するときに必要な vCPU の数を指定することをお勧めします。 ジョブに指定するメモリサイズは、Elastic Compute Service(ECS)インスタンスのメモリ容量を超えることはできません。

使用上の注意

  • 自動スケーリングサービスを使用する前に、スケジューラサービスとドメインアカウントサービスが期待どおりに動作することを確認してください。 自動スケーリングを有効にした後、管理ノードは実行状態である必要があります。

    重要

    管理ノードをシャットダウンまたは再起動する必要がある場合は、アイドルノードが解放され、計算ノードでジョブが実行されていない状態になってから操作を実行してください。 この場合、管理ノードをシャットダウンまたは再起動する前に自動スケーリングを無効にし、管理ノードの再起動後に自動スケーリングを有効にすることをお勧めします。

  • 次の表に、推奨される管理ノードの構成とキューの数を示します。 詳細については、「概要」をご参照ください。

    計算ノード数

    管理ノードの仕様

    ジョブ数

    100 以下の計算ノード

    • 16 個以上の vCPU

    • 64 GiB 以上のメモリ

    • 5,000 未満のキューイングされたジョブ

    • 10,000 未満の未完了のジョブ

    500 以下の計算ノード

    • 32 個以上の vCPU

    • 128 GiB 以上のメモリ

    • 10,000 未満のキューイングされたジョブ

    • 20,000 未満の未完了のジョブ

    500 を超える計算ノード

    • 64 個以上の vCPU

    • 256 GiB 以上のメモリ

    • 10,000 未満のキューイングされたジョブ

    • 20,000 未満の未完了のジョブ

手順

  1. [自動スケール] ページを開きます。

    1. E-HPC コンソール にログオンします。

    2. 上部のナビゲーションバーで、リージョンを選択します。

    3. 左側のナビゲーションウィンドウで、[弾力性] > [自動スケール] を選択します。

  2. [自動スケーリング] ページの [Cluster] ドロップダウンリストから、自動スケーリングを構成するクラスターを選択します。

  3. [グローバル構成] セクションで、パラメーターを構成します。次の表に、構成可能なパラメーターを示します。

    パラメータ

    説明

    [自動スケーリングを有効にする]

    クラスター内のすべてのキューに対して自動拡張と自動縮小を有効にします。

    説明

    [キュー設定] セクションの設定が [グローバル設定] セクションの設定と異なる場合、[キュー設定] セクションの設定が優先されます。

    [計算ノード]

    自動スケーリング後のクラスター内の計算ノード数の範囲。上限は、クラスター内の各キューに対して設定された計算ノードの最大数の合計です。下限は、クラスター内の各キューに対して設定された計算ノードの最小数の合計です。

    [スケールイン時間(分)]

    計算ノードの連続アイドル時間がスケールイン時間よりも長い場合、ノードは解放されます。

    連続アイドル時間は、スケールイン間隔に連続アイドル回数を掛けたものです。デフォルトでは、スケールイン間隔は 2 分です。計算ノードの連続アイドル回数は、リソースのスケールインチェック中に計算ノードがアイドル状態になった連続回数です。

    [イメージタイプ]

    クラスターに追加する計算ノードのイメージタイプ。クラスター内の既存の計算ノードのイメージと互換性のあるイメージのみがサポートされています。

    [例外ノード]

    自動スケーリングから除外するノードを選択します。

    計算ノードを保持する場合、ノードを例外ノードとして設定できます。その後、ノードがアイドル状態かどうかに関係なく、ノードは解放されません。

    [ハイパースレッディング]

    デフォルトでは、すべての ECS インスタンスでハイパースレッディング(HT)が有効になっています。特定の ECS インスタンスタイプでは、パフォーマンス向上のために HT を無効にすることができます。詳細については、「インスタンスタイプの制限」および「計算ノードの HT を無効にする」をご参照ください。

  4. [キュー構成] セクションで、キューを選択し、[編集] をクリックしてパラメーターを構成します。

    パラメーター

    説明

    [自動拡張][自動縮小]

    自動拡張と自動縮小を有効にするかどうかを指定します。デフォルトでは、両方のスイッチはオフになっています。

    説明

    [キューの設定] セクションの設定が [グローバル設定] セクションの設定と異なる場合は、[キューの設定] セクションの設定が優先されます。

    キュー計算ノード

    キュー内の計算ノード数の範囲。

    • 最大ノード数: 計算ノードの最大数は 0 ~ 5000 です。この値は、スケールアウトの効果に影響を与える可能性があります。

    • 最小ノード数: 計算ノードの最小数は 0 ~ 1000 です。この値は、スケールインの効果に影響を与える可能性があります。

      重要

      最小ノード数パラメーターにゼロ以外の値を指定すると、クラスターのスケールイン時に指定した値に基づいて、キューはノード数を保持します。アイドル状態のノードは解放されません。キュー内のアイドル状態のノードによってリソースとコストが無駄にならないように、最小ノード数パラメーターは慎重に指定することをお勧めします。

    ホスト名のプレフィックス

    計算ノードのホスト名のプレフィックス。 このプレフィックスは、異なるキューのノードを区別するために使用されます。

    スケールアウトの各ラウンドでの最大ノード数

    スケールアウトの各ラウンドで追加できる計算ノードの最大数です。デフォルト値 0 は、スケールアウトの各ラウンドで追加できる計算ノードの最大数に制限がないことを指定します。

    計算ノードのコストを制御するために、このパラメーターを設定することをお勧めします。

    このパラメーターを A に設定し、B ノードを追加する場合、ノードは次のルールに基づいて追加されます。

    • B が A 以下の場合、B ノードが追加されます。

    • B が A より大きい場合、A ノードが追加されます。

    説明

    このパラメーターに加えて、クラスター内のノード数は、単一のキューに追加できる指定された最大ノード数と、クラスターに追加できる指定された最大ノード数によっても制限されます。

    1 回のスケールアウトで追加する最小ノード数

    スケールアウトの各ラウンドで追加する必要がある計算ノードの最小数です。デフォルト値 1 は、少なくとも 1 つのノードを追加する必要があることを指定します。

    特定のシナリオでは、ビジネスが期待どおりに実行されるようにするために、少なくとも特定の数のノードを追加する必要がある場合があります。この場合、各ラウンドで追加する必要があるノードの最小数を指定できます。使用可能な ECS インスタンスの数が、指定された最小ノード数と必要なノード数よりも少ない場合、リソースの浪費を避けるためにクラスターはスケールアウトされません。

    このパラメーターを A に設定し、B ノードを追加する場合、次のシナリオでノードが追加されます。

    • たとえば、B が A 以下の場合。使用可能な ECS インスタンスの数が B 以上の場合、B ノードが追加されます。使用可能な ECS インスタンスの数が B 未満の場合、クラスターはスケールアウトされません。

    • たとえば、B が A より大きい場合。使用可能な ECS インスタンスの数が B 以上の場合、B ノードが追加されます。使用可能な ECS インスタンスの数が B 未満で A 以上の場合、A ノードが追加されます。使用可能な ECS インスタンスの数が A 未満の場合、クラスターはスケールアウトされません。

    スケールアウトごとの最小ノード数の自動設定

    このスイッチをオンにすると、各スケールアウトの最小ノード数は、ジョブに必要なノード数と同じになります。最小ノード数は 99 を超えることはできません。

    ホスト名サフィックス

    ホスト名のサフィックス。サフィックスは、異なるキューのノードを区別するために使用されます。

    イメージ タイプ

    キューに追加するノードのイメージ タイプです。キューごとに異なるイメージ タイプを指定できます。

    イメージ ID

    キューに追加するノードが属するイメージの ID です。 キューごとに異なるイメージ ID を指定できます。

    説明

    このパラメーターは、現在のキューに対してのみ有効です。 イメージ タイプまたはイメージ ID を指定しなかった場合、追加するノードのイメージ タイプは、グローバル構成で指定されたイメージ タイプと同じになります。 グローバル構成でイメージ タイプを指定しなかった場合、追加するノードのイメージ タイプは、クラスターのデフォルト イメージ タイプと同じになります。

    インスタンスタイプが順不同であるかどうか

    このスイッチをオンにすると、自動スケーリング中にシステムは在庫にあるインスタンス数の降順でインスタンスタイプを選択し、リソースの配信を保証します。

    [構成一覧]

    追加する計算ノードを構成します。各構成リストには、次の構成が含まれています。

    • [ゾーン]: クラスターが存在するリージョン内のゾーン。

    • [vswitch ID]: 選択したゾーンのクラスターの VPC にバインドされている vSwitch。

    • [インスタンスタイプ]: キューに追加する計算ノードのインスタンスタイプ。

      説明

      キューで複数のインスタンスタイプが構成されている場合、クラスターは使用可能なインスタンスタイプ、タスク数、および GPU 数の順にスケールアウトされます。たとえば、ビジネス要件を満たすには、キュー内の各ノードに少なくとも 16 コアが必要です。キューには、8 コア、16 コア、および 32 コアのノードがあります。16 コアの ECS インスタンスが自動的にキューに追加されます。16 コアの ECS インスタンスが使用できない場合は、32 コアのインスタンスが自動的にキューに追加されます。

    • [入札戦略]: 追加するノードに構成された入札方法。

    • [1 時間あたりの最大価格]: [入札戦略][最大入札価格のプリエンティブルインスタンス] に設定されている場合にのみ、1 時間あたりの最大価格を設定する必要があります。

    システムディスク

    追加する計算ノードのシステムディスク。

    データディスク

    追加する計算ノードにアタッチされるデータディスクです。ビジネス要件に基づいて、データディスクのタイプ、サイズ、パフォーマンスレベルを設定し、計算ノードと一緒にデータディスクを解放するかどうか、およびデータディスクを暗号化するかどうかを指定します。

  5. ページの右上隅で、[alibaba Cloud International Website Product Terms Of Service] を確認して選択し、[OK] をクリックします。

  6. オプション。クラスタの自動スケーリング図を表示します。

    自動スケーリング図は、設定した自動スケーリングポリシーに基づいて、自動スケーリングプロセス中のノード数の経時変化を示しています。この図は、主要な時点でノードのスケールインとスケールアウトにかかった時間も示しています。

    説明

    自動スケーリング図で同時実行ノードのシミュレーション数を指定して、自動スケーリング中の計算ノードの変化をシミュレートできます。