Lingjun クラスターは、Lingjun 最適化スイートを搭載した高性能 Lingjun コンピュートノードの集合です。各 Lingjun ノードは、ヘテロジニアスコンピューティングサービスのデプロイに使用できる GPU コンピュートサーバーに対応します。このトピックでは、情報の表示やスケールアウトなど、Lingjun クラスターとノードを管理する方法について説明します。
Lingjun クラスターの管理
Lingjun クラスターは、次のいずれかの状態になります:
[Initialization failed.]:クラスターの初期化に失敗しました。失敗したタスクの詳細については、「O&M タスクセンター」を参照してください。
[Initializing]:システムが Lingjun ネットワークを設定し、Lingjun コンピュートノードを初期化しています。
[Running]: クラスターが Running 状態の場合にのみ、クラスターのスケールアウトまたはスケールイン、あるいはノードの再インストールまたは再起動を実行できます。
重要スケールアウト、スケールイン、再インストール、および再起動のタスクは、対象となる Lingjun コンピュートノードが異なる場合、並行して実行できます。
クラスター情報
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [クラスター管理] を選択します。
クラスター ID の横にあるDetailsをクリックして、[クラスター詳細]ページを開きます。
クラスターの名前、ノードグループ数、作成の詳細などの基本情報を確認します。
Node Group、[モニタリングとアラート]、Basic Metrics、[RDMA]、および GPU タブで、クラスターの詳細を表示できます。
クラスターのスケールアウト
クラスターをスケールアウトする場合、新しい GPU ノードに CPFS クライアントをデプロイし、それらを CPFS クラスターに追加する必要があります。
また、新しいノードにタグを追加する必要があります。
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [クラスター管理] を選択します。
対象のクラスター ID の横にあるScale outをクリックします。
Original Group Details: エリアで、対応するノードグループの名前の横にある Scale out をクリックします。
表示されるダイアログボックスで、ノード名プレフィックスを入力し、ログインパスワードを入力して確認します。
未使用のノードインスタンスのチェックボックスを選択するか、新しいノードを購入し、Yes をクリックします。
スケールアウトの詳細設定エリアで、Confirm Submissionをクリックします。
Cluster Management ページに戻ります。クラスターのステータスが Scaling out に変わります。プロセスが完了するまでお待ちください。
クラスターのスケールイン
クラスターをスケールインすると、ノードが削除され、オペレーティングシステムが再インストールされるため、すべてのローカルデータが消去されます。続行する前に、これらのノードから必要なデータをバックアップしていることを確認してください。
クラスターをスケールインすると、ノードは関連付けられた CPFS クラスターから削除されます。
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [クラスター管理] を選択します。
クラスター ID の横のScale-inをクリックします。
Original Group Details: エリアで、削除するノードのチェックボックスを選択し、Batch Remove from Clusterをクリックします。
The following information displays the detailed configurations for scale-down: エリアで、Confirm Submission をクリックします。
Confirm scale-in ページで、テキストボックスに
DELETEを入力し、Yes をクリックします。Cluster Management ページに戻ります。クラスターのステータスが Scaling in に変わります。プロセスが完了するまで待ちます。
クラスターの削除
クラスターを削除する前に、スケールインによってすべてのノードを削除しておく必要があります。
クラスターを削除しても、関連付けられた CPFS クラスターは削除されません。
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [クラスター管理] を選択します。
削除するクラスターの クラスター ID/クラスター名をクリックします。[クラスター詳細] ページで、右上隅の Deleteをクリックします。
表示されるダイアログボックスで、OK をクリックしてクラスターを削除します。
ノードグループの作成
Lingjun クラスターのノードグループは、次の 2 つの方法で作成できます。
クラスターの作成時にノードグループを作成します。詳細については、「クラスターとノードグループの設定」をご参照ください。
既存のクラスターにノードグループを作成します。
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [クラスター管理] を選択します。
目的の クラスター ID/クラスター名 をクリックします。
Node Group タブをクリックします。
Create Group をクリックします。グループ名、デフォルトのノードタイプ、およびその他の情報を入力します。
(オプション) ノードグループの作成後、その名前を編集したり、削除したりできます。
Lingjun ノードの管理
Lingjun コンピュートノードは、一度に 1 つの操作のみを実行できます。これらの操作には、クラスターのスケールアウト、クラスターのスケールイン、ノードの再インストール、およびノードの再起動が含まれます。
新しいノードの購入
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理] ページで、Purchase Node をクリックします。
画面の指示に従って、新しいノードを購入します。
ノードの詳細の表示
Intelligent Computing Lingjun コンソールにログインします。
左側のナビゲーションペインで、[リソースとノード] > [ノード管理] を選択し、[ノード管理] ページに移動します。
[すべて] タブをクリックして、すべてのノードを表示します。
[ノード ID/名前]、Image Name、Zone などのノードの基本情報を確認できます。
ノードを検索するには、ドロップダウンリストからImage Name、Zone、またはIPなどの条件を選択し、検索ボックスにキーワードを入力します。
Unused タブをクリックすると、未使用のノードが表示されます。Node Model や Resource Group など、ノードに関する基本情報を確認できます。
ノードへのログイン
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [ノード管理] を選択します。
対象ノードのActions列で、[リモートログオン]をクリックします。
-
ユーザー名は `root` です。
-
パスワードはクラスターのログインパスワードです。詳細については、「クラスターとグループの構成」をご参照ください。
-
ノードの再インストール
ノードを再インストールすると、そのデータが削除されます。慎重に実行してください。
ノードは、Lingjun クラスターが Running 状態の場合にのみ再インストールできます。
ノードを再インストールすると、CPFS クラスターから古いノードが削除され、新しいノード情報がクラスターに追加されます。
次の状況でノードを再インストールします:
サービスを再デプロイする場合。
オペレーティングシステムのバージョンを変更する場合。
運用保守の目的の場合。
手順
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理] ページで、対象のインスタンス ID の Reinstall をクリックします。表示されたダイアログボックスで、イメージバージョンを選択し、ノード名を変更し、ノードの root パスワードを入力して確認してから、Reinstall をクリックします。
ノードの再起動
ノードを再起動すると、ビジネス継続性に影響を与える可能性があります。
ノードは、Lingjun クラスターが Running 状態の場合にのみ再起動できます。
次の状況でノードを再起動します:
新しいアプリケーションまたはサービスをデプロイする場合。
システム設定を変更する場合。
運用保守の目的の場合。
手順
Intelligent Computing Lingjun コンソールにログインします。
ナビゲーションペインで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理] ページで、対象のインスタンス ID の Restart をクリックします。