ack-kube-queueは、クラウドネイティブAIスイートによって提供されるkube-queueコンポーネントです。 スケジューラおよびクォータシステムと連携して、ジョブキューの管理、優先順位に基づいたジョブのスケジュール、およびエラスティッククォータの使用を可能にします。 ack-kube-queueは、KubernetesでのAI /機械学習 (ML) ワークロードとバッチワークロードの管理とスケジューリングを最適化できます。 このトピックでは、ack-kube-queueを紹介し、ack-kube-queueの使用法ノートとリリースノートについて説明します。
概要
KubernetesのAI/MLジョブまたはバッチジョブは通常、多数のポッドを作成するため、スケジューラの負荷が増加します。 さらに、異なるユーザによって提出されたジョブは、互いに干渉する可能性がある。 ack-kube-queueは、KubernetesでAI/MLワークロードとバッチワークロードを管理するためのkube-queueのすべての機能を提供します。 このコンポーネントにより、システム管理者はジョブキュー管理をカスタマイズしてキューの柔軟性を向上させることができます。 ack-kube-queueは、クォータシステムと組み合わせることで、ワークロードとリソースクォータの管理を自動化および最適化し、Kubernetesクラスターでのリソース使用率を最大化できます。
使用上の注意
Container Service for Kubernetes (ACK) Proクラスター、ACK Serverless Proクラスター、ACK Edge Proクラスターのみが、Kubernetesバージョンが1.18で、ack-kube-queueをサポートしています。
ack-kube-queueは、クラウドネイティブAIスイートをデプロイするときにインストールするか、クラウドネイティブAIスイートをデプロイした後にインストールすることができます。 ack-kube-queueをインストールした後、キューのブロックや厳格な優先スケジューリングなどの機能を使用できます。 ack-kube-queueをインストールして使用する方法の詳細については、「ack-kube-queueを使用してジョブキューを管理する」をご参照ください。
説明
January 2024
バージョン | 説明 | リリース日 | 影響 |
v0.3.4 | キュー内の最初のタスクを削除するときにブロックモードで発生することがある行の先頭ブロックが修正されます。 | 2024-01-04 | この更新はワークロードに影響を与えません。 |
12月2023
バージョン | 説明 | リリース日 | 影響 |
v0.3.3 | 環境変数を使用してブロッキングキューをグローバルに設定すると、すべてのキューのブロッキングキューモードが更新されます。 | 2023-12-26 | この更新はワークロードに影響を与えません。 |
9月2023
バージョン | 説明 | リリース日 | 影響 |
v0.3.1 | QueueUnitの削除中に時折発生するキューエラーが修正されました。 | 2023-09-13 | この更新はワークロードに影響を与えません。 |
v0.3.0 | ジョブシーケンス情報は、キューから取り出すことができる。 | 2023-09-13 | この更新はワークロードに影響を与えません。 |
8月2023
バージョン | 説明 | リリース日 | 影響 |
v0.2.1 | テンプレートの | 2023-08-31 | この更新はワークロードに影響を与えません。 |
v0.2.0 |
| 2023-08-29 | この更新はワークロードに影響を与えません。 |
7月2023日
バージョン | 説明 | リリース日 | 影響 |
v0.1.13 | LastUpdateTimeフィールドがない場合に発生する可能性のある関数の問題は修正されています。 | 2023-07-26 | この更新はワークロードに影響を与えません。 |
v0.1.12 | スイッチを追加して、異なるキューのブロッキングキュー機能を設定します。 拡張子のtimeoutパラメーターを0に設定すると、再キュー機能を無効にできます。 | 2023-07-20 | この更新はワークロードに影響を与えません。 |
6月2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.11 | キューユニットのステータスは、タスクが更新されると同期されます。 | 2023-06-30 | この更新はワークロードに影響を与えません。 |
v0.1.10 | ARMベースのノードは、kube-queue-controller、tf-operator-extension、pytorch-operator-extensionなどのコンポーネントによってサポートされます。 | 2023-06-14 | この更新はワークロードに影響を与えません。 |
5月2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.9 | 長期間保留中のジョブはジョブキューに再送信でき、マルチキューのフェアキューがサポートされます。 ジョブによって作成されたポッドがトポロジ認識スケジューリング、ノードアフィニティ、またはリソースフラグメントのために長期間保留中のままである場合、ack-kube-queueはジョブを再要求し、ジョブをキューに再送信します。 これにより、ジョブによって占有されているリソースクォータが解放され、全体的なリソースクォータ使用率が向上します。 | 2023-05-16 | この更新はワークロードに影響を与えません。 |
April 2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.8 | ブロッキングキューと厳格な優先スケジューリングがサポートされています。 詳細については、「ブロッキングキューの有効化」および「厳格優先スケジューリングの有効化」をご参照ください。 | 2023-04-25 | この更新はワークロードに影響を与えません。 |
March 2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.6 | TensorFlowジョブのステータスが表示されない問題を修正しました。 | 2023-03-15 | この更新はワークロードに影響を与えません。 |
2月2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.5 | ack-kube-queueがジョブの削除に失敗することがあるという問題が修正されました。 | 2023-02-28 | この更新はワークロードに影響を与えません。 |
v0.1.4 | ジョブキューユニットがデキューされた後にUsed情報が時々失われる問題は修正されます。 | 2023-02-14 | この更新はワークロードに影響を与えません。 |
January 2023
バージョン | 説明 | リリース日 | 影響 |
v0.1.3 | ジョブキュー単位が時々失われる問題が修正されました。 | 2023-01-12 | この更新はワークロードに影響を与えません。 |
v0.1.2 | ジョブを長期間デキューできないという時折発生する問題を修正しました。 | 2023-01-12 | この更新はワークロードに影響を与えません。 |
v0.1.1 | マルチキューがサポートされています。 異なるリソースクォータを有するジョブは、輻輳を回避するために異なるキューにサブミットされる。 | 2023-01-10 | この更新はワークロードに影響を与えません。 |
10月2022
バージョン | 説明 | リリース日 | 影響 |
v0.1.0 | これは最初のリリースです。 | 2022-10-15 | この更新はワークロードに影響を与えません |