すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Lingjun クラスターとノードの管理

最終更新日:Jul 23, 2025

Lingjun クラスターは、Lingjun 最適化コンポーネントを搭載したパフォーマンス専有型 Lingjun 計算ノードの集合です。 各 Lingjun ノードは GPU サーバーに対応しており、ヘテロジニアスコンピューティングサービスの展開に使用できます。 このトピックでは、Lingjun クラスターと Lingjun ノードの管理方法について説明します。 たとえば、Lingjun クラスターまたはノードに関する情報を表示したり、Lingjun クラスターをスケールアウトしたりできます。

Lingjun クラスターの管理

Lingjun クラスターは、次のいずれかの状態になります。

  • [初期化に失敗しました]: クラスターの初期化に失敗しました。 失敗の詳細の表示方法については、「O&M タスクセンター」をご参照ください。

  • [初期化中]: クラスターのネットワークが構成されており、クラスターの Lingjun 計算ノードが初期化されています。

  • [実行中]: クラスターは実行中です。 クラスターが[実行中]状態の場合にのみ、クラスターのスケールアウトまたはスケールイン、ノードの再インストール、またはノードの再起動を実行できます。

    重要

    クラスターのスケールアウト、クラスターのスケールイン、ノードの再インストール、およびノードの再起動タスクに異なる Lingjun 計算ノードが関係している場合は、これらのタスクを一度に送信して並行して実行できます。

クラスターに関する情報の表示

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。

  3. 管理するクラスターを見つけ、[操作] 列の[詳細]をクリックします。[クラスターの詳細] ページが表示されます。

    1. クラスター名、ノードグループの数、作成情報など、クラスターに関する基本情報を表示します。

    2. [ノードグループ][監視とアラート][基本メトリック][RDMA]、および[GPU]タブで、クラスターに関する詳細情報を表示します。

クラスターのスケールアウト

説明

クラスターをスケールアウトする場合は、追加する各 GPU ノードに Cloud Parallel File Storage (CPFS) クライアントをインストールし、関連ノードを関連付けられた CPFS クラスターに追加する必要があります。

また、追加されたノードにタグを追加する必要があります。

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。

  3. 管理するクラスターを見つけ、[操作] 列の[展開]をクリックします。

    1. [元のグループの詳細]セクションで、ノードグループを見つけ、[アクション] 列の[スケールアップ]をクリックします。

    2. 表示されるダイアログボックスで、[ノード名のプレフィックス]、[ログインパスワード]、および[パスワードの確認] パラメーターを構成します。

    3. [未使用] タブで、1 つ以上の未使用ノードを選択するか、[ノードの購入] をクリックしてノードを購入します。 次に、[はい]をクリックします。

  4. [以下の情報は、スケールアップの詳細な構成を表示します]セクションで、[送信の確認]をクリックします。

  5. [クラスター管理]ページに戻ります。 クラスターの状態は[スケールアップ中]です。 スケールアウトが完了するまで待ちます。

クラスターのスケールイン

警告
  • クラスターをスケールインする場合、削除されたノードは再インストールされ、すべてのデータが削除されたノードからクリアされます。 ノードを削除する前に、ノードデータがバックアップされていることを確認してください。

  • また、関連付けられた CPFS クラスターから関連ノードを削除する必要があります。

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。

  3. 管理するクラスターを見つけ、[操作] 列の[縮小]をクリックします。

    1. [元のグループの詳細]セクションで、クラスターから削除する 1 つ以上のノードを選択し、[クラスターから一括削除]をクリックします。

    2. [以下の情報は、スケールダウンの詳細な構成を表示します]セクションで、[送信の確認]をクリックします。

  4. [スケールダウン構成の確認]ページで、フィールドにDELETEと入力し、[OK]をクリックします。

  5. [クラスター管理]ページに戻ります。 クラスターの状態は[スケールダウン中]です。 スケールインが完了するまで待ちます。

クラスターの削除

重要
  • クラスターを削除する前に、クラスターからすべてのノードを削除する必要があります。

  • クラスターが削除されても、関連付けられた CPFS クラスターは削除されません。

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。

  3. 削除するクラスターの ID をクリックします。 [クラスターの詳細]ページで、右上隅にある[削除]をクリックします。

  4. 表示されるメッセージで、[OK]をクリックします。

クラスターのノードグループの作成

Lingjun クラスターのノードグループは、次のいずれかの方法で作成できます。

  • クラスターを作成するときに、クラスターのノードグループを作成します。 詳細については、「クラスターとノードグループの構成」をご参照ください。

  • 既存のクラスターのノードグループを作成します。

    1. インテリジェントコンピューティング Lingjun コンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[リソースとノード] > [クラスター管理] を選択します。

    3. ノードグループを作成するクラスターの ID をクリックします。

    4. [クラスターの詳細] ページで、[ノードグループ]タブをクリックします。

    5. [ノードグループ] タブで、[グループの作成]をクリックします。 ノードグループの名前やデフォルトモデルなど、ノードグループに関する情報を構成します。

    6. オプション。 ノードグループを作成した後、ノードグループの名前を変更したり、ノードグループを削除したりできます。

Lingjun ノードの管理

重要

一度に 1 つの操作のみを Lingjun 計算ノードで実行できます。 たとえば、クラスターにノードを追加したり、クラスターからノードを削除したり、ノードを再インストールしたり、ノードを再起動したりできます。

ノードの購入

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。

  3. [ノード管理]ページで、[ノードの購入]をクリックします。

  4. 指示に従ってノードを購入します。

ノードの詳細の表示

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。 [ノード管理]ページが表示されます。

  3. [すべて] タブをクリックして、すべてのノードを表示します。

    • ノード ID、ノード名、イメージ名、ゾーンなど、ノードに関する基本情報を表示できます。

    • キーワードに基づいてノードを検索できます。 まず、ドロップダウンリストから[イメージ名][ゾーン][IP アドレス]などのカテゴリを選択します。 次に、検索ボックスにキーワードを入力し、検索アイコンをクリックします。

  4. [未使用]タブをクリックして、未使用のノードを表示します。 ノードタイプやリソースグループなど、未使用ノードに関する基本情報を表示できます。

ノードへのログイン

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。

  3. 管理するノードを見つけ、[アクション]列の [その他] アイコンをクリックし、[リモートログイン]を選択します。

    • ログインユーザー名として root を使用します。

    • クラスターのログインパスワードを使用します。 詳細については、「基本的な Lingjun クラスターの作成」トピックのクラスターとノードグループの構成セクションをご参照ください。

ノードの再インストール

重要
  • ノードを再インストールすると、ノードデータが削除されます。 ノードを再インストールする場合は注意してください。

  • クラスターが[実行中]状態の場合にのみ、ノードを再インストールできます。

  • ノードを再インストールする場合は、最初に関連付けられた CPFS クラスターからノードを削除してから、再インストールされたノードを CPFS クラスターに追加する必要があります。

次の状況では、ノードを再インストールする必要があります。

  • ビジネスを再展開する。

  • OS バージョンを変更する。

  • O&M 要件を満たす。

手順

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。

  3. [ノード管理]ページで、管理するノードを見つけ、[アクション] 列の[再インストール]をクリックします。 表示されるダイアログボックスで、イメージバージョンを選択し、ノード名を変更し、ノードの root パスワードを入力して確認し、[再インストール]をクリックします。

ノードの再起動

重要
  • ノードを再起動すると、業務継続性に影響を与える可能性があります。

  • クラスターが[実行中]状態の場合にのみ、ノードを再起動できます。

次の状況では、ノードを再起動する必要があります。

  • 新しいアプリケーションまたはサービスを展開する。

  • システム設定を変更する。

  • O&M 要件を満たす。

手順

  1. インテリジェントコンピューティング Lingjun コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード] > [ノード管理] を選択します。

  3. [ノード管理]ページで、管理するノードを見つけ、[アクション] 列の[再起動]をクリックします。