Platform for AI (PAI) のクラウドネイティブリソースクォータの管理 - Platform For AI

リソースクォータを作成した後、スケーリング、子クォータの追加、リストや詳細の表示ができます。

重要

Lingjun AI 計算リソースでは、ノード間の高速ネットワーク接続を有効にするために、すべてのノードで同じ hz 識別子を使用する必要があります。

親子リソースクォータの作成

リソースクォータページでは、親子リソースクォータを作成できます。これらのクォータは QuotaTree と呼ばれるツリー構造を形成し、よりきめ細かいリソース管理と割り当てを実現します。親子関係の図については、「機能」をご参照ください。

親リソースクォータの作成: Add Resource Quota をクリックして、ルートリソースクォータを作成します。詳細については、「クラウドネイティブリソースクォータ」をご参照ください。
サブレベルリソースクォータの作成: 新しいリソースクォータを追加するか、既存のリソースクォータのActions 列で New Child-level Resource Quota をクリックします。

クォータのスケーリング

リソースクォータを作成した後、ジョブの要件に基づいてそのサイズを調整し、コストを管理できます。

リソースクォータページで、対象のリソースクォータを見つけ、Actions 列の Scale をクリックします。リソースクォータをスケールするには、その Source または Nodes/Instance Type を調整します。

スケールアップ：新しいソースや仕様を追加するか、既存のものを調整して、利用可能なリソースを増やします。
スケールダウン：関連する仕様のノード数を減らすか、特定の仕様を削除して、アイドルリソースを解放します。

クォータリストの表示

[リソースクォータ] ページで、Lingjun Intelligent Computing resources または General Computing Resources タブに切り替えると、対応する作成済みリソースクォータのリストが表示されます。

リストには、各リソースクォータの基本的な情報 (名前、タイプ、関連ワークスペース、ステータス、GPU タイプ、ノード数、リソース量 (GPU、CPU コア、メモリなど)) が表示されます。次の操作を実行できます：

リソースクォータのフィルタリング：[Name/ID] または [Status] でクォータをフィルタリングします。
リソース量によるソート：合計または割り当て済みの CPU、メモリ、または GPU リソースでソートして、リソースの分散と使用状況を表示します。

クォータ詳細の表示

[リソースクォータ] ページで、Lingjun Intelligent Computing resources または General Computing Resources タブに切り替え、リソースクォータ名をクリックすると詳細が表示されます。GPU、CPU、メモリなどのリソースのスケジュール済み、デキュー済み、および送信済みの量、ならびにアイドル状態を表示することで、リソース使用状況の概要とジョブのキューイング状況を把握できます。

概要

「リソースクォータ詳細」ページの Overview タブで、設定を表示および更新します。

[Basic Information]：リソースクォータ名、ID、および関連ワークスペースが含まれます。
- 編集アイコンをクリックして、Resource Quota Name、関連付けられたワークスペース、および Tag を更新します。
- ワークスペースを関連付けた後、ワークスペース名をクリックしてその詳細ページに移動し、そのワークスペースで AI 開発のためにリソースクォータを使用します。
[Resource Information]：
- リソースグループ情報：リソースクォータが属するリソースグループ、およびその親子リソースクォータが含まれます。親子関係の図については、「親子リソースクォータの作成」セクションをご参照ください。リソース名をクリックすると、その詳細ページに移動できます。
- [GPU Default Driver]：GPU タイプ、ドライバー、SDK、およびコンテナイメージのカスタム要件を満たすためにデフォルトドライバーを設定できます。
[Network Information]：VPC、セキュリティグループ、NAT ゲートウェイなどのネットワークリソースに対する制限を表示します。この情報は、ネットワークレイヤーでのリソースクォータのスコープを定義します。
[Scheduling Information]：リソースクォータのスケジューリング情報を表示し、その設定を更新できます。
- [Scheduling Policy]：基盤となる原則に基づいて適切なスケジューリングポリシーを選択し、デキュー効率とコンピューティングリソース使用率を向上させます。設定の詳細については、「スケジューリングポリシー」をご参照ください。
- [Child-level Preemption]および[Self-level Preemption]：リソースが限られている場合、現在のリソースクォータでキューイング中のジョブは、子レベルまたは自己レベルのクォータで実行中のジョブをプリエンプトできます。設定の詳細については、「プリエンプションポリシー」をご参照ください。
- [Idle Sharing]：デフォルトで有効になっています。これにより、ジョブは現在のクォータとその子クォータのアイドルリソースを使用できます。
[Resource Change History]：作成、スケーリング、削除操作の履歴を表示します。レコードには、変更タイプ、開始者、ステータス、およびターゲットインスタンスタイプが表示されます。
[Event History]：ノードのスケーリング、スケジューリングの有効化/無効化、ノードのアタッチ/デタッチなど、クォータに関連するイベントを表示します。履歴には、イベントのトリガー時間、開始者、および内容が含まれます。
[Advanced Information]：
- [Enable Local Cache]：Lingjun AI 計算リソースクォータでは、この機能を有効にしてデータをコンピューティングノードの近くにキャッシュし、読み取りパフォーマンスを向上させることができます。この機能を有効にすると、ノード上の一部のリソースが消費されるため、十分なリソースがあることを確認してください。詳細については、「Lingjun AI 計算のキャッシュアクセラレーション」をご参照ください。
  - ストレージサービス： OSS、汎用NAS、および BMCPFS のローカルキャッシュをサポートします。
  - [Supports RDMA]：キャッシュで高速化された読み取りは RDMA (tail) をサポートし、より高い通信帯域幅を提供してデータ読み取りパフォーマンスの要件を満たします。
- ENI ウォームアップ：リソースクォータ内のノードに対して Elastic Network Interface (ENI) を事前にプロビジョニングし、ジョブの起動を高速化します。この機能を有効にすると ENI リソースが消費されるため、VPC サブネットに十分な数の利用可能な IP アドレスがあることを確認してください。子リソースクォータに割り当てられたノードの場合、最下位レベルのクォータの設定が優先されます。

ノード

「リソースクォータ詳細」ページで、Nodes タブに移動して、クォータのノード情報を表示および管理します：

ノード詳細: Node Specification、Dedicated Resource Group Name/ID、リソースの In Use と Total の量 (GPU Type、Number of GPUs、および CPU Cores)、ゾーン (AZ)、高速ネットワーク相互接続ゾーン (HZ)、およびノードで作成された Tasks と Instances が含まれます。
- ジョブとインスタンスの詳細: ターゲットノードの Tasks および Instances 列で、対応する番号をクリックすると、ジョブとインスタンスの詳細が表示されます。
- ノードのフィルタリング：ノードステータスまたは注文ステータスでノードをフィルタリングするか、リソース量でソートします。
- hz (高速ネットワーク相互接続ゾーン)：Lingjun AI 計算のシナリオでは、hz は、基盤となるコンピューティングリソースが存在する高速ネットワークゾーンを示します。同じ hz 識別子を持つリソースは、高速ネットワークを介して通信できます。
[Node Status]：サポートされているステータス：
- [Ready]：コンピューティングノードは利用可能です。
- [Not Ready]：コンピューティングノードは初期化中です。
- [Scheduling Disabled]：ノードはスケジューリングできません。考えられる原因：
  - [Stopped by User]：ユーザーがノードのスケジューリングを手動で無効にしました。
  - [Expired]：ノードのサブスクリプションが期限切れになりました。
  - Recovering：ノードは回復中です。このノードでジョブが実行されている場合は、回復を中断しないように、速やかに停止してください。
  - Unknown：原因は不明です。サポートについては、アカウントマネージャーにお問い合わせください。
ノードの管理：
- ノードでのスケジューリングの停止/開始: 対象のノードの Actions 列で、Stop Scheduling または Start Scheduling をクリックして、そのノードでのリソーススケジューリングを一時停止または再開します。
- ノードのクリア: 対象のノードのActions 列でClear Node をクリックすると、そのノード上のすべてのジョブ (DSW、DLC、または EAS ジョブを含む) が終了します。
- ノードリストのダウンロード：アイコンをクリックして、現在のページからノードリストをエクスポートし、ローカルマシンにダウンロードします。

ジョブ

リソースクォータ詳細ページの Job タブでは、ジョブステータス、リソースクォータ、インスタンス情報、GPU カード数、CPU コア、メモリサイズなどの主要なメトリクスを含む、Queuing および Dequeued ジョブのリソース使用量が表示されます。

ジョブのフィルタリング：[Type] または [Job Status] でフィルタリングします。
詳細の表示：ジョブ名、リソースクォータ名、またはワークスペース名をクリックして、対応する詳細ページに移動します。
現在のクォータ内のジョブのフィルタリング：[View Current Resource Quota] スイッチを有効にすると、このクォータ内で作成されたジョブのみが表示されます。

ユーザー

「リソースクォータ詳細」ページの User タブでは、GPU カード数、CPU コア数、メモリサイズ、ジョブ数などの主要なメトリックを含む、クォータ内のユーザーごとのリソース使用量を確認できます。

現在のクォータのユーザーのフィルタリング：[View Current Resource Quota Users] スイッチを有効にすると、子クォータではなく、このクォータに直接ジョブを送信したユーザーのみが表示されます。
ジョブの詳細の表示: ユーザーの Number of Tasks 列で Details をクリックして、そのユーザーが送信したジョブを表示します。ジョブリストページで、ジョブ名をクリックしてその詳細を表示します。

モニタリング

リソースクォータ詳細ページのMonitoring タブに移動すると、モニタリング情報を表示できます。

GPU 計算能力のヒートマップ (リアルタイム使用率)、リソースレベル、およびジョブステータスの分布が表示されます。
クォータとノードの 2 つの観点からモニタリング情報を表示します。これには、CPU、メモリ、ディスク、ネットワーク、GPU のメトリクスが含まれます。メトリクスの詳細、および CloudMonitor と ARMS を使用してデータを表示し、アラートを設定し、メトリクスを購読する方法については、「リソースクォータのモニタリングとアラート」をご参照ください。

トポロジー

「リソースクォータ詳細」ページで、Topology タブに移動して、クォータのトポロジを表示します。2 つのビューが利用可能です。

リソースビュー：現在のクォータとその子クォータのCPU、メモリ、GPUリソースの割り当てを表示します。
ジョブビュー：現在のクォータとその子クォータで作成されたジョブの総数を、ステータス別の内訳とともに表示します。

クォータの削除

Resource Quota ページで、Actions 列にある Delete をクリックして、不要になったリソースクォータを削除します。リソースクォータを削除する前に、ワークスペースとの関連付けを解除する必要があります。詳細については、「概要」をご参照ください。