このトピックでは、Deep Learning Containers (DLC) でサブスクリプションリソースのクォータを使用して、トレーニングジョブを送信するときにアイドルリソースを効果的に使用および設定する方法について説明します。
概要
Platform for AI (PAI) では、ビジネスシナリオに合わせた柔軟なクォータ割り当てと割り当てが可能です。 異なるビジネスチームのトレーニングジョブは、それぞれのクォータを消費します。 ただし、特定の期間中、一部のクォータはアイドルのままであり、他のクォータはクォータ不足のためにキューイングを経験し、リソースの不一致と非効率性をもたらします。
大規模なクラスターと複雑な組織図のコンテキストでは、リソース使用率を最適化することがコンピューティング能力サービスの重要な目標です。 これらの課題を軽減するために、DLCはアイドルリソース機能を提供します。これにより、アイドルリソースを使用するコンピューティングジョブを送信して、通常のビジネスオペレーションを中断することなく全体的なリソース使用率を向上させることができます。
それがいかに働くか:
アイドルリソースジョブは、クォータ内の合計または残りのリソースに制約されることなく、現在または他のクォータからのアイドルリソースを使用します。
借用したアイドルリソースを返す必要がある場合、アイドルリソースジョブは終了し、借用したリソースは自動的に返されます。
アイドルコンピューティングジョブは、PAIのAIMasterおよびEasyCKPT機能によって強化され、ジョブの再開を自動的に改善し、コンピューティングパワーの無駄を防ぎます。
前提条件
サブスクリプションリソースのクォータが作成され、ワークスペースに関連付けられます。 クォータには、一般的なコンピューティングリソースまたはLingjunリソースを指定できます。 詳細については、「概要」をご参照ください。
アイドルリソースを使用してDLCジョブを送信する
コンソールからDLCトレーニングジョブを送信する場合、[リソース情報] セクションで [アイドルリソース] を有効にできます。 次の表に、主要なパラメーターを示します。 詳細については、「トレーニングジョブの送信」をご参照ください。

パラメーター
説明
リソースクォータ
一般的なコンピューティングリソースのクォータまたはLingjunリソースのクォータを選択します。
説明高性能AIトレーニングとコンピューティングを実行するには、Lingjunリソースを使用します。 Lingjunのリソースは、中国 (Ulanqab) リージョンとシンガポールリージョンでのみサポートされています。
アイドルリソース
有効な値:
Acceptable: ジョブは、アイドル状態のコンピューティングリソースまたは関連するクォータのリソースを使用できます。
アイドルリソースのみ: ジョブはアイドルコンピューティングリソースのみを使用し、関連するクォータのリソースは使用しません。
アイドルリソースを使用するジョブは、関連するクォータを超えるリソースで実行されます。
シームレスなジョブの再起動と再開を容易にするために、コードにチェックポイントメカニズムが組み込まれていることを確認します。 詳細については、「EasyCkptを使用した基礎モデルのトレーニングの保存と再開」をご参照ください。
自動故障トレランス
リソース不足のためにアイドル状態のコンピューティングジョブが中断されるリスクを軽減し、コンピューティングパワーの効率と有効利用率を高めるために、自動フォールトトレランス機能を有効にすることを推奨します。 これにより、アイドルリソースが回収されると、システムはジョブを再開するために代替リソースをシームレスに割り当てます。 詳細な設定手順については、AIMaster: Elastic fault tolerance engineを参照してください。

DLCジョブリソースの使用状況を監視します。
DLCジョブリストまたはジョブの詳細ページには、アイドルリソースの詳細が表示されます。

In Quota: ジョブは、関連付けられたクォータのリソースを使用します。
Not in Quota: ジョブはアイドル状態のコンピューティングリソースを使用します。
ジョブで使用されているアイドルリソースがプリエンプトまたは再利用されている場合、詳細ページのジョブポッドのステータスはプリエンプトに変わります。
借用したクォータグループのアイドル状態でないリソースジョブがデキューされ、リソース不足のためにスケジュールできない場合、ジョブスケジューリングを容易にするために、システムはクォータグループのリソースを回収します。 この時点で、アイドル状態のリソースジョブのステータスがプリエンプトに変わります。
関連ドキュメント
リソース不足のためにアイドル状態のコンピューティングジョブが中断されるリスクを軽減し、コンピューティングリソースの効率と有効利用率を高めるために、AIMaster: Elastic fault tolerance engineを使用することを推奨します。 AIMasterは、ジョブのプリエンプションの場合にスムーズな移行と中断のない実行を保証します。 さらに、EasyCkptを使用して基礎モデルのトレーニングを保存および再開することをお勧めします。 EasyCkptはPAIチームのツールで、先取り中のトレーニングの進行状況の損失を最小限に抑え、ジョブの自動再開と回復を容易にするように設計されています。