cGPUを使用してGPU共有用のコンピューティングパワー割り当てポリシーを設定する -

GPU共有とGPUメモリ分離は、Container Service for Kubernetes (ACK) 専用クラスターによってサポートされ、cGPUに基づいて実装されています。 cGPUの詳細については、cGPUとは何ですか? GPU共有は、複数の計算能力割り当てポリシーをサポートします。計算能力割り当てポリシーを選択するには、ACK専用クラスターのcGPUコンポーネントで使用されるポリシーを指定します。このトピックでは、ビジネス要件に基づいてGPU共有のための適切な計算能力割り当てポリシーを設定する方法について説明します。

前提条件

GPU高速化ノードを持つACK専用クラスターが作成されます。詳細については、「GPUアクセラレーションノードでのACKクラスターの作成」をご参照ください。

注意事項

cGPUをインストールするノードにGPU分離が設定されている場合は、cGPUのインストール後にノードを再起動して、コンピューティング能力割り当てポリシーを有効にする必要があります。 cGPUをインストールするノードにGPU分離が設定されていない場合、cGPUがインストールされた後すぐにコンピューティングパワー割り当てポリシーが有効になります。ノードを再起動する方法の詳細については、「インスタンスの再起動」をご参照ください。
説明
- ノードにGPU分離が設定されているかどうかを確認するには、ノードにログインして関連するコマンドを実行します。システムがcGPUバージョン番号を返す場合、GPU分離が設定されます。
- cGPU 1.0.6以降のみがサポートされています。 cGPUバージョンの更新方法の詳細については、「ノードのcGPUバージョンの更新」をご参照ください。
クラスターでGPU共有が有効になっているノードは、同じcGPUポリシーを使用します。

ステップ1: cGPUコンポーネントがインストールされているかどうかを確認する

計算能力割り当てポリシーを設定するために必要な操作は、cGPUコンポーネントがインストールされているかどうかによって異なります。コンピューティング能力割り当てポリシーを設定する前に、cGPUコンポーネントがインストールされているかどうかを確認する必要があります。

ACKコンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターの名前をクリックします。左側のナビゲーションウィンドウで、[アプリケーション] > [ヘルム] を選択します。
On theヘルムページ、チェックかどうかcpuコンポーネントが存在します。
cgpuが存在する場合、cGPUコンポーネントがインストールされます。 cgpuが存在しない場合、cGPUコンポーネントはインストールされません。

ステップ2: 計算能力割り当てポリシーの設定

cGPUコンポーネントがインストールされていない

ACKコンソールにログインします。左側のナビゲーションウィンドウで、[Marketplace] > [Marketplace] を選択します。
ack-cgpuを見つけてクリックします。 ack-cgpuページの右上隅で、[デプロイ] をクリックします。
[基本情報] ウィザードページで、[クラスター] 、[名前空間] 、および [リリース名] パラメーターを設定します。次に、[次へ] をクリックします。

[パラメーター] ウィザードページで、[チャートバージョン] パラメーターを設定し、[パラメーター] セクションの [ポリシー] フィールドを設定します。 [OK] をクリックします。

次の説明に基づいて、policyフィールドを設定します。タイムスライスとスケジューリングポリシーの詳細については、「cGPUを使用した計算能力スケジューリングの例」をご参照ください。

値	説明
0	公正共有スケジューリング。各コンテナは、固定されたタイムスライスを占有する。タイムスライスの割合は`1/max_inst`である。
1	先制スケジューリング。各コンテナは、できるだけ多くのタイムスライスを占有する。タイムスライスの割合は、`1 /コンテナの数`である。
2	重みベースのプリエンプティブスケジューリング。 ALIYUN_COM_GPU_SCHD_WEIGHTが1より大きい値に設定されている場合、重みベースのプリエンプティブスケジューリングが使用されます。
3	固定パーセンテージスケジューリング。計算能力は一定の割合でスケジュールされます。
4	ソフトスケジューリング。プリエンプティブスケジューリングと比較して、ソフトスケジューリングはよりソフトな方法でGPUリソースを分離します。
5	組み込みのスケジューリング。 GPUドライバーの組み込みスケジューリングポリシー。

cGPUコンポーネントがインストールされている

次のコマンドを実行して、cGPUコンポーネントのcGPU分離モジュールが実行されるDaemonSetを変更します。
```
kubectl edit daemonset cgpu-installer -nkube-system
```
cGPU分離モジュールが実行されるDaemonSetを変更し、変更を保存します。
1. でDaemonSetの画像バージョンを表示します。イメージフィールドを選択します。
  イメージのバージョンが1.0.6以降であることを確認します。 imageフィールドの例:
```
image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer: <イメージバージョン>
```
2. 変更します。Modify the値フィールドを選択します。
  containers.envパラメーターで、POLICYキーのvalueフィールドを設定します。 valueフィールドの詳細については、「Value description」をご参照ください。
```
# その他のフィールドは省略されます。 
仕様：
  containers:
  -env:
    -name: ポリシー
      値: "1"
# その他のフィールドは省略します。
```
GPU共有が有効になっているノードを再起動します。
ノードを再起動する方法の詳細については、「インスタンスの再起動」をご参照ください。

:cGPUを使用してGPU共有用のコンピューティングパワー割り当てポリシーを設定する