Elastic High Performance Computing (E-HPC) クラスタでは、計算ノードは Elastic Compute Service (ECS) インスタンスです。作成されたノードに対して、リモート接続、コマンドの送信、再起動、解放などの操作を実行できます。このトピックでは、クラスタ内の計算ノードを管理する方法について説明します。
前提条件
クラスタが [実行中] 状態であること。
ノードを作成するための前提条件を以下に示します。
クラスタにキューが作成されていること。詳細については、「キューの管理」をご参照ください。
ノードを作成するリージョンで使用可能な vSwitch と IP アドレスがあること。詳細については、「vSwitch の作成と管理」をご参照ください。
ノードを作成するリージョンで、十分な未使用の ECS インスタンスクォータが利用可能であること。詳細については、「ECS インスタンスタイプのクォータの表示または増加」をご参照ください。
E-HPC コンソールの [ノード] ページには、計算ノードのみが表示されます。管理ノードとログインノードは表示されません。
ノードの作成
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
[ノードの追加] をクリックします。[ノードの追加] ページで、次のパラメータを構成します。
基本設定
パラメータ
説明
宛先キュー
クラスタに作成したキューを選択します。
ノード
クラスタに作成するノードの数を入力します。
ノードの構成
パラメータ
説明
ノードタイプの選択
[ノードの作成] のみを選択できます。
ノード間相互接続
ノードを相互接続するモードを選択します。有効な値:
VPCNetwork:計算ノードは Virtual Private Cloud (VPC) 経由で相互に通信します。
eRDMANetwork:計算ノードのインスタンスタイプが Elastic RDMA インターフェース (ERI) をサポートしている場合、計算ノードは elastic Remote Direct Memory Access (eRDMA) ネットワーク経由で相互に通信します。
説明特定のインスタンスタイプの計算ノードのみが ERI をサポートしています。詳細については、「概要」および「エンタープライズレベルインスタンスでの eRDMA の構成」をご参照ください。
プリセットノードプールの使用
作成済みの予約ノードプールを選択します。システムは、プール内の未割り当ての予約ノードから IP アドレスとホスト名を自動的に選択して、計算ノードを作成します。
説明予約ノードプールを使用することで、スケールアウト時に事前に割り当てられたリソースを迅速に再利用できます。詳細については、「クラスタで予約ノードプールを使用する」をご参照ください。
仮想スイッチ
ノードが使用する vSwitch を指定します。システムは、使用可能な vSwitch CIDR ブロックから計算ノードに IP アドレスを自動的に割り当てます。
インスタンスタイプグループ
[インスタンスの追加] をクリックし、表示されるパネルでインスタンスタイプを選択します。
自動キュースケーリングを有効にしていない場合は、1 つのインスタンスタイプのみを追加できます。自動キュースケーリングを有効にしている場合は、複数のインスタンスタイプを追加できます。
ホスト名のプレフィックス
計算ノードのホスト名のプレフィックスを指定します。プレフィックスは、異なるキューのノードを区別するために使用されます。
ホスト名のサフィックス
計算ノードのホスト名のサフィックスを指定します。サフィックスは、異なるキューのノードを区別するために使用されます。
インスタンス RAM ロール
ノードが Alibaba Cloud サービスにアクセスできるように、Resource Access Management (RAM) ロールをノードにバインドします。
デフォルトロールの AliyunECSInstanceForEHPCRole を選択することをお勧めします。
[追加されたノードに対して「削除保護」がデフォルトで有効になっていることを理解しました。これは、ノードがキューのスケーリングアクティビティの影響を受けないようにするためです。不要なコストを避けるために、ノードの削除保護を無効にするか、ノードを手動で削除できることを理解しています。] を選択し、[追加の確認] をクリックします。
説明クラスタ内のアプリケーションは、追加された計算ノードに自動的にインストールされ、計算ノードは自動的に初期化されます。既存の計算ノードは、これによる影響を受けません。
[ノード] ページのノードリストで、スケールアウトされたノードの状態を確認できます。ノードが [実行中] 状態の場合、クラスタはスケールアウトされます。
ノードの再起動
ノードで例外が発生した場合、ノードを再起動できます。ノードは、次のいずれかのモードで再起動できます。
通常再起動:[再起動モード] を [通常再起動] に設定すると、再起動コマンドがノードに送信されます。その後、オペレーティングシステムはすべてのプロセスを終了し、再起動します。
強制再起動:[再起動モード] を [強制再起動] に設定すると、ノードの電源が直接オフになります。データが失われる可能性があります。通常再起動が失敗した場合にのみ、強制再起動を実行することをお勧めします。
ノードが再起動されると、ノードで実行されているジョブは停止します。ノードを再起動する前に、ノードでジョブが実行されていないことを確認してください。
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
ノードリストで、再起動する 1 つ以上の計算ノードを選択します。
ノードリストの下にある [再起動] をクリックします。
表示されるダイアログボックスで、再起動モードを選択し、[OK] をクリックします。
ノードへの接続
デフォルトでは、リモート ワークベンチセッションは 6 時間持続します。セッションで 6 時間以上操作が実行されない場合、セッションは閉じられ、ノードを使用するには再接続する必要があります。
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
[ノード] ページで、接続するノードを見つけ、[操作] 列の [リモート接続] をクリックします。
[リモート接続] ダイアログボックスで、[ワークベンチ] セクションの [今すぐサインイン] をクリックします。
[インスタンスログイン] ダイアログボックスで、パラメータを構成します。パラメータの詳細については、「ワークベンチを使用してインスタンスに接続する」をご参照ください。
ノードにコマンドを送信する
ソフトウェアのインストールや O&M スクリプトの実行など、ノードを迅速に保守するには、ノードにリモートコマンドを送信できます。
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
ノードリストで、再起動する 1 つ以上の計算ノードを選択します。
ノードリストの下にある [コマンドの送信] をクリックします。
表示されるダイアログボックスで、パラメータを構成し、コマンドを入力します。
パラメータの詳細については、「リモートコマンドを送信する」をご参照ください。
[実行] をクリックします。
削除保護の有効化または無効化
削除保護機能は、ノードの意図しない削除を防ぎます。この機能がノードで有効になっている場合、ノードはこの機能が無効になるまで削除できません。これは、ノードの意図しない、または悪意のある削除を防ぎ、クラスタの安定した実行を保証するのに役立ちます。
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
ノードリストで、再起動する 1 つ以上の計算ノードを選択します。
ノードリストの下にある [詳細] をクリックし、ビジネス要件に基づいて [削除保護の有効化] または [削除保護の無効化] を選択します。
表示されるメッセージで、[OK] をクリックします。
ノードの削除
クラスタのスケールダウンのために、不要になった計算ノードを削除できます。
従量課金ノードは、削除するとすぐに解放されます。サブスクリプションノードは保持され、払い戻しをリクエストするか、有効期限が切れる前に従量課金ノードに転送すると解放されます。詳細については、「ApsaraDB for RDS MySQL インスタンスの解放またはサブスクライブ解除」をご参照ください。
ノードに保存されているデータは、ノードが解放された後復元できません。ノードのデータを保持する場合は、ノードを削除する前にスナップショットを作成してデータをバックアップすることをお勧めします。詳細については、「スナップショットの作成」をご参照ください。
[クラスタの詳細] ページに移動します。
E-HPC コンソール にログインします。
上部ナビゲーションバーの左側で、リージョンを選択します。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタリスト] ページで、管理するクラスタを見つけ、[クラスタ ID] をクリックします。
左側のナビゲーションウィンドウで、 を選択します。
ノードリストで、再起動する 1 つ以上の計算ノードを選択します。
ノードリストの下にある [削除] をクリックします。
メッセージを確認し、[OK] をクリックします。