Lingjun クラスターは、Lingjun 最適化コンポーネントを搭載したパフォーマンス専有型 Lingjun 計算ノードの集合です。 各 Lingjun ノードは GPU サーバーに対応しており、ヘテロジニアスコンピューティングサービスの展開に使用できます。 このトピックでは、Lingjun クラスターと Lingjun ノードの管理方法について説明します。 たとえば、Lingjun クラスターまたはノードに関する情報を表示したり、Lingjun クラスターをスケールアウトしたりできます。
Lingjun クラスターの管理
Lingjun クラスターは、次のいずれかの状態になります。
[初期化に失敗しました]: クラスターの初期化に失敗しました。 失敗の詳細の表示方法については、「O&M タスクセンター」をご参照ください。
[初期化中]: クラスターのネットワークが構成されており、クラスターの Lingjun 計算ノードが初期化されています。
[実行中]: クラスターは実行中です。 クラスターが[実行中]状態の場合にのみ、クラスターのスケールアウトまたはスケールイン、ノードの再インストール、またはノードの再起動を実行できます。
重要クラスターのスケールアウト、クラスターのスケールイン、ノードの再インストール、およびノードの再起動タスクに異なる Lingjun 計算ノードが関係している場合は、これらのタスクを一度に送信して並行して実行できます。
クラスターに関する情報の表示
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。
管理するクラスターを見つけ、[操作] 列の[詳細]をクリックします。[クラスターの詳細] ページが表示されます。
クラスター名、ノードグループの数、作成情報など、クラスターに関する基本情報を表示します。
[ノードグループ]、[監視とアラート]、[基本メトリック]、[RDMA]、および[GPU]タブで、クラスターに関する詳細情報を表示します。
クラスターのスケールアウト
クラスターをスケールアウトする場合は、追加する各 GPU ノードに Cloud Parallel File Storage (CPFS) クライアントをインストールし、関連ノードを関連付けられた CPFS クラスターに追加する必要があります。
また、追加されたノードにタグを追加する必要があります。
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。
管理するクラスターを見つけ、[操作] 列の[展開]をクリックします。
[元のグループの詳細]セクションで、ノードグループを見つけ、[アクション] 列の[スケールアップ]をクリックします。
表示されるダイアログボックスで、[ノード名のプレフィックス]、[ログインパスワード]、および[パスワードの確認] パラメーターを構成します。
[未使用] タブで、1 つ以上の未使用ノードを選択するか、[ノードの購入] をクリックしてノードを購入します。 次に、[はい]をクリックします。
[以下の情報は、スケールアップの詳細な構成を表示します]セクションで、[送信の確認]をクリックします。
[クラスター管理]ページに戻ります。 クラスターの状態は[スケールアップ中]です。 スケールアウトが完了するまで待ちます。
クラスターのスケールイン
クラスターをスケールインする場合、削除されたノードは再インストールされ、すべてのデータが削除されたノードからクリアされます。 ノードを削除する前に、ノードデータがバックアップされていることを確認してください。
また、関連付けられた CPFS クラスターから関連ノードを削除する必要があります。
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。
管理するクラスターを見つけ、[操作] 列の[縮小]をクリックします。
[元のグループの詳細]セクションで、クラスターから削除する 1 つ以上のノードを選択し、[クラスターから一括削除]をクリックします。
[以下の情報は、スケールダウンの詳細な構成を表示します]セクションで、[送信の確認]をクリックします。
[スケールダウン構成の確認]ページで、フィールドに
DELETEと入力し、[OK]をクリックします。[クラスター管理]ページに戻ります。 クラスターの状態は[スケールダウン中]です。 スケールインが完了するまで待ちます。
クラスターの削除
クラスターを削除する前に、クラスターからすべてのノードを削除する必要があります。
クラスターが削除されても、関連付けられた CPFS クラスターは削除されません。
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。
削除するクラスターの ID をクリックします。 [クラスターの詳細]ページで、右上隅にある[削除]をクリックします。
表示されるメッセージで、[OK]をクリックします。
クラスターのノードグループの作成
Lingjun クラスターのノードグループは、次のいずれかの方法で作成できます。
クラスターを作成するときに、クラスターのノードグループを作成します。 詳細については、「クラスターとノードグループの構成」をご参照ください。
既存のクラスターのノードグループを作成します。
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。
ノードグループを作成するクラスターの ID をクリックします。
[クラスターの詳細] ページで、[ノードグループ]タブをクリックします。
[ノードグループ] タブで、[グループの作成]をクリックします。 ノードグループの名前やデフォルトモデルなど、ノードグループに関する情報を構成します。
オプション。 ノードグループを作成した後、ノードグループの名前を変更したり、ノードグループを削除したりできます。
Lingjun ノードの管理
一度に 1 つの操作のみを Lingjun 計算ノードで実行できます。 たとえば、クラスターにノードを追加したり、クラスターからノードを削除したり、ノードを再インストールしたり、ノードを再起動したりできます。
ノードの購入
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理]ページで、[ノードの購入]をクリックします。
指示に従ってノードを購入します。
ノードの詳細の表示
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。 [ノード管理]ページが表示されます。
[すべて] タブをクリックして、すべてのノードを表示します。
ノード ID、ノード名、イメージ名、ゾーンなど、ノードに関する基本情報を表示できます。
キーワードに基づいてノードを検索できます。 まず、ドロップダウンリストから[イメージ名]、[ゾーン]、[IP アドレス]などのカテゴリを選択します。 次に、検索ボックスにキーワードを入力し、検索アイコンをクリックします。
[未使用]タブをクリックして、未使用のノードを表示します。 ノードタイプやリソースグループなど、未使用ノードに関する基本情報を表示できます。
ノードへのログイン
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。
管理するノードを見つけ、[アクション]列の [その他] アイコンをクリックし、[リモートログイン]を選択します。
ログインユーザー名として
rootを使用します。クラスターのログインパスワードを使用します。 詳細については、「基本的な Lingjun クラスターの作成」トピックのクラスターとノードグループの構成セクションをご参照ください。
ノードの再インストール
ノードを再インストールすると、ノードデータが削除されます。 ノードを再インストールする場合は注意してください。
クラスターが[実行中]状態の場合にのみ、ノードを再インストールできます。
ノードを再インストールする場合は、最初に関連付けられた CPFS クラスターからノードを削除してから、再インストールされたノードを CPFS クラスターに追加する必要があります。
次の状況では、ノードを再インストールする必要があります。
ビジネスを再展開する。
OS バージョンを変更する。
O&M 要件を満たす。
手順
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理]ページで、管理するノードを見つけ、[アクション] 列の[再インストール]をクリックします。 表示されるダイアログボックスで、イメージバージョンを選択し、ノード名を変更し、ノードの root パスワードを入力して確認し、[再インストール]をクリックします。
ノードの再起動
ノードを再起動すると、業務継続性に影響を与える可能性があります。
クラスターが[実行中]状態の場合にのみ、ノードを再起動できます。
次の状況では、ノードを再起動する必要があります。
新しいアプリケーションまたはサービスを展開する。
システム設定を変更する。
O&M 要件を満たす。
手順
インテリジェントコンピューティング Lingjun コンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。
[ノード管理]ページで、管理するノードを見つけ、[アクション] 列の[再起動]をクリックします。