モデルサービスをより費用対効果の高い方法でデプロイするために、Elastic Algorithm Service (EAS) は GPU スライシングを提供します。この機能は、物理 GPU の計算能力とメモリをパーティション分割し、サービスインスタンス間で共有することで、GPU の使用率を向上させ、デプロイメントコストを削減します。
前提条件
GPU スライシングには、EAS リソースグループまたはLingjun リソースが必要です。
GPU スライシングの構成
GPU スライシングは、PAI コンソールまたは eascmd クライアントを使用して、サービスの作成時または更新時に構成できます。
コンソールの使用
PAI コンソールにログインします。ページの上部でリージョンを選択します。次に、目的のワークスペースを選択し、[Elastic Algorithm Service (EAS)] をクリックします。
新しいサービスを作成するか、既存のサービスを更新して、サービス構成ページを開きます。
[リソース情報] セクションで、次の主要なパラメーターを構成します。他のパラメーターの詳細については、「カスタムデプロイメント」をご参照ください。

パラメーター
説明
リソースタイプ
[EAS リソースグループ] または [リソースクォータ] を選択します。
GPU スライシング
このチェックボックスを選択して GPU スライシングを有効にします。
説明GPU スライシングオプションは、EAS 専用リソースグループ、仮想リソースグループ、または Lingjun リソースを選択した場合にのみ表示されます。
デプロイメントリソース
単一 GPU メモリ (GB): 必須。単一 GPU 上のインスタンスごとに必要な GPU メモリを整数で指定します。システムはインスタンスのメモリベースのスケジューリングをサポートし、インスタンスが単一の GPU を共有できるようにします。
重要mlで始まるリソース仕様の場合、単位は GB です。ecsで始まるリソース仕様の場合、単位は GiB です。GPU あたりの計算能力 (%): オプション。単一 GPU 上の各インスタンスに必要な GPU 計算能力の割合を 1 から 100 までの整数で指定します。システムはインスタンスの計算能力ベースのスケジューリングをサポートし、インスタンスが単一の GPU を共有できるようにします。
システムは、[単一 GPU メモリ (GB)] と [GPU あたりの計算能力 (%)] の両方の要件が満たされた場合にのみリソースを割り当てます。たとえば、GPU メモリを 48 GB に、計算能力の割合を 10% に設定した場合、インスタンスは最大 48 GB の GPU メモリと 10% の計算能力を使用できます。
パラメーターを構成したら、[デプロイ] または [更新] をクリックします。
ローカルクライアントの使用
次の JSON の例は、GPU スライシングの構成を示しています:
{ "metadata": { "gpu_core_percentage": 5, "gpu_memory": 20 } }gpu_memory: コンソールの [単一 GPU メモリ (GB)] に対応します。
gpu_core_percentage: PAI コンソールの [GPU あたりの計算能力 (%)] に対応します。
gpu_core_percentageパラメーターを使用するには、gpu_memoryパラメーターも指定する必要があります。指定しない場合、このパラメーターは無視されます。
重要メモリベースのスケジューリングを使用するには、gpu フィールドを設定しないか、0 に設定します。gpu フィールドが 1 に設定されている場合、インスタンスが GPU カード全体を排他的に使用することを意味します。この場合、gpu_memory および gpu_core_percentage フィールドは無視されます。
詳細については、「コマンドリファレンス」をご参照ください。
createまたはmodifyコマンドを使用して、サービスを作成するか、その構成を更新します。