すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ノード自己修復通知の構成

最終更新日:Nov 06, 2025

このトピックでは、ノード自己修復の通知を構成する方法について説明します。この機能により、Lingjun リソースの基盤となるマシンノードに異常が発生した際に、迅速にアラートを受信できます。通知を受信したら、自己修復プロセスを完了させるために、影響を受けるノードからすべてのタスクをできるだけ早くクリアする必要があります。

背景情報

システムが異常なノードを検出すると、自己修復機能を使用して自動的にスタンバイマシンに切り替えます。これにより、リソースの安定性と高可用性が確保されます。次の 2 つのシナリオで通知を有効にできます:

  • ノードスケジューリングの無効化: システムが異常なノードを特定し、そのノードへのスケジューリングを一時的に無効にします。

  • ノード自己修復の妨害: 異常なノードでタスクが実行されているため、自己修復プロセスが妨害されます。この場合、次の操作を実行する必要があります:

    • DSW インスタンスの場合: 手動で環境を保存してインスタンスをシャットダウンするか、スケジューリングセンターの DSW 構成でポリシーを構成してインスタンスを自動的に再起動します。

    • DLC ジョブの場合: 手動でジョブを停止します。

制限事項

この機能は Lingjun リソースでのみ利用可能です。

メッセージ通知を有効にする

システムがノードスケジューリングを無効にした場合、またはタスクが異常なノードで実行されている場合に、内部メッセージまたはメールで通知を受信できます。これらの通知をタイムリーに受信するために、次のように有効にすることをお勧めします:

  1. PAI コンソールにログインします。

  2. 右上隅の image アイコンをクリックして、メッセージセンターに移動します。

    image

  3. 左側のナビゲーションウィンドウで、[メッセージ設定] > > > [共通設定] を選択します。

  4. [メッセージタイプ] 列で、[プロダクトメッセージ] > > > [プロダクト O&M 通知] を見つけます。[内部メッセージ][メール] を選択し、受信者が追加されていることを確認します。[アカウント連絡先] の下にある [変更] をクリックして、さらに連絡先を構成することもできます。

    image

    構成が完了すると、異常が検出された場合に、影響を受けるノード名、リソースクォータ、およびノードで実行されているタスクに関する情報がシステムから通知されます。

ユーザーガイド

ノードの自己修復が妨害されているという通知を受け取ったら、次の手順に従って、異常なノードから DSW インスタンスと DLC ジョブをクリアします。これにより、ノードの置き換えが正常に進行することが保証されます。

DSW インスタンスの移行

方法 1: 手動移行

異常なノード上の DSW インスタンスの場合、ブラウザが開いていると、DSW インスタンスにポップアップウィンドウが表示されます。このウィンドウは、Lingjun ノードが自己修復できるように、できるだけ早く環境を保存してインスタンスをシャットダウンするように促します。

方法 2: 自動移行

説明

自動移行は現在、中国 (ウランチャブ) および シンガポール リージョンで利用可能です。

  1. PAI コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。[ワークスペース] ページで、管理するワークスペースの名前をクリックします。

  3. [ワークスペース詳細] ページの右側で、[ワークスペース設定] > [スケジューリング設定] を選択します。

  4. [DSW] セクションで、[異常ノードからのインスタンス自動移行を有効にする] スイッチをオンにします。

    この機能を有効にすると、Lingjun リソースの基盤となるマシンノードに異常が発生した場合、システムは自動的にインスタンスをシャットダウンして再起動します。これにより、基盤となるノードの自己修復プロセスがサポートされ、リソースの高可用性が確保されます。再起動中、環境イメージは保存されますが、実行中のプロセスは回復できません。

異常なノード上の DSW インスタンスの場合、ブラウザが開いていると、ポップアップウィンドウが表示されます。このウィンドウは、できるだけ早く環境を保存してインスタンスをシャットダウンするように促します。また、Lingjun ノードが自己修復できるように自動再起動が行われるまでの残り時間も表示されます。

DLC ジョブの停止

  1. 内部メッセージ、メールの詳細リンクをクリックして、リソースクォータページに移動します。

  2. 提供されたノード情報に基づいて、ノードをクリックして実行中のタスクのリストを表示します。image

  3. DLC ジョブの名前をクリックしてジョブ詳細ページを開きます。次に、右上隅で [その他] > [停止] を選択して DLC ジョブを停止します。image

  4. [クローン] をクリックします。ジョブは元の構成を再利用し、正常なノードにスケジュールされます。詳細については、「トレーニングジョブのクローンを作成する」をご参照ください。image