ACK Lingjun クラスターは、ACK Pro マネージドクラスターと同じ管理機能をサポートします。Container Service for Kubernetes (ACK) コンソールを使用して、クラスター全体の権限付与、ネットワーク、アプリケーション、セキュリティ、可観測性、およびスケジューリングを管理します。
| 分野 | トピック |
|---|---|
| 権限管理 | 権限管理 |
| ネットワーク管理 | サービス管理<br>Ingress 管理<br>DNS サービス検出 |
| コンポーネント管理 | コンポーネントの管理 |
| アプリケーション管理 | ワークロード<br>アプリケーションのスケジューリング<br>構成管理 |
| セキュリティ管理 | セキュリティ |
| 可観測性 | ログ管理<br>モニタリング管理 |
| スケジューリング | タスクスケジューリング<br>タスクスケジューリングの概要<br>ギャングスケジューリングの使用<br>キャパシティスケジューリングの使用<br><br>GPU スケジューリング<br>eGPU を使用した GPU リソースの共有とスケジューリング<br><br>トポロジーを意識した GPU スケジューリング<br>Kubernetes は GPU リソーストポロジを認識しないため、GPU リソースをランダムにスケジュールします。これにより、トレーニングジョブの高速化にばらつきが生じます。ACK はトポロジーを意識した GPU スケジューリングをサポートしており、GPU 高速化ノードから複数の GPU を選択することで、トレーニングジョブの最適な GPU 高速化を実現します。<br>概要<br>トポロジーを意識した GPU スケジューリングの使用 (TensorFlow 版)<br>トポロジーを意識した GPU スケジューリングの使用 (PyTorch 版) |