すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:LINGJUN ノードプールの作成と管理

最終更新日:Dec 05, 2025

このトピックでは、ACK Managed Cluster Pro Edition に LINGJUN ノードプールを追加する方法について説明します。

LINGJUN ノードプールの概要

  • ACK Managed Cluster Pro Edition の LINGJUN ノードプールは、Intelligent Computing LINGJUN Service (LINGJUN ベアメタルクラスター) のノードグループと 1 対 1 でマッピングされます。これは、LINGJUN クラスターのノードグループが ACK Managed Cluster Pro Edition の単一の LINGJUN ノードプールに対応し、Node Lingjun インスタンスは 1 つの LINGJUN ノードプールにのみ属することができることを意味します。ノードを LINGJUN ノードプールに分割することで、ACK Managed Cluster Pro Edition 内の Node Lingjun インスタンスに異なる管理ポリシーを適用できます。

  • ACK Managed Cluster Pro Edition は、LINGJUN ノードプールを使用して Node Lingjun インスタンスを管理します。ノードプールのライフサイクル管理とノードのバッチ追加・削除をサポートします。ノード構成、ノードの運用保守 (O&M)、指定されたノードプールへのアプリケーションスケジューリング、モニタリングと診断、自動化された O&M など、ECS ノードプールとほぼ同等の管理および O&M 機能を提供します。

  • Node Lingjun インスタンスに強化されたクラウドネイティブ AI 機能を提供するために、クラウドネイティブ AI スイートをインストールできます。LINGJUN ノードプールは、複数の GPU のトポロジー認識スケジューリングをサポートします。GPU コンテナー仮想化ソリューションを使用して、共有 GPU スケジューリングと隔離を提供します。AI やハイパフォーマンスコンピューティング (HPC) などのタスクに対して、Gang、Capacity、Binpack などのスケジューリングポリシーをサポートします。また、データセットのオーケストレーションとアクセス高速化もサポートします。

説明

ACK Managed Cluster Pro Edition の LINGJUN ノードプール機能はホワイトリストを通じて有効になります。この機能を使用するには、ソリューションアーキテクト (SA) を通じて Container Service チームにご連絡ください。

課金説明

ACK Managed Cluster Pro Edition で LINGJUN ノードプールを使用する場合、合計費用はクラスター管理料金、LINGJUN ノード管理料金、クラウド製品リソース料金の 3 つの部分で構成されます。

説明

Lingjun ノード管理機能の無料招待プレビューは 2025 年 8 月 5 日 に終了し、商用課金が開始されます。詳細については、「[課金に関するお知らせ] Lingjun ノード管理の課金に関するお知らせ」をご参照ください。招待プレビュー期間中、Lingjun ノードプール機能は無料で利用できます。ただし、クラスター管理料金やクラウド製品リソース料金など、ACK Managed Pro Cluster のその他の料金は通常どおり課金されます。詳細については、「課金の概要」をご参照ください。

前提条件

ACK Managed Cluster Pro Edition の LINGJUN ノードプールを作成する前に、以下の前提条件を満たす必要があります。

  1. Lite タイプの基本的な LINGJUN クラスターを作成し、LINGJUN ノードグループでノードをスケールアウトします。詳細については、「クラスターの作成」をご参照ください。

  2. 以下の条件を満たす ACK Managed Cluster Pro Edition を作成します。

    • ACK Managed Cluster Pro Edition と LINGJUN ベアメタルクラスターは、同じリージョンと VPC にあります。

    • ACK Managed Cluster Pro Edition はバージョン 1.31 以降です。IPv4 シングルスタッククラスターのみがサポートされており、IPv6 デュアルスタッククラスターはサポートされていません。クラスターをアップグレードするには、「クラスターの手動アップグレード」をご参照ください。

    • ネットワークプラグインは Terway です。Node Lingjun インスタンスのタイプによって必要な Terway のバージョンが異なります。terway-controlplane と terway-eniip コンポーネントを最新バージョンにアップグレードする必要があります。

    • ack-rdma-device-plugin コンポーネントがインストールされていること。

  3. LINGJUN ノードプールを使用する場合、一部の ACK コントロールプレーンコンポーネントをデプロイするために ECS ノードを保持する必要があります。高可用性 (HA) を確保するために、3 つ以上の ECS ノードを使用することを推奨します。

    重要

    システムコンポーネントの Pod が LINGJUN ノードにスケジューリングされてリソースを消費するのを防ぐため、LINGJUN ノードプール内のノードにはデフォルトで次のラベルと Taint が付与されています。Pod を LINGJUN ノードで実行したい場合は、この Taint に対する Toleration を追加するか、コンポーネントをアップグレードした後に Taint を削除できます。ただし、デフォルトのラベルは削除しないでください。

    Label: alibabacloud.com/lingjun-worker:true
    Taint: Key:node-role.alibabacloud.com/lingjun
           Effect:NoSchedule
  4. LINGJUN ノードプールは、オペレーティングシステム (OS) のカーネルバージョンが 5.10 以降の Node Lingjun インスタンスのみをサポートします。

エントリーポイント

[ノードプール] ページで、クラスター内のノードプールの作成、編集、削除、表示ができます。

  1. ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] を選択します。

  2. [クラスター] ページで、対象のクラスターの名前をクリックします。左側のナビゲーションウィンドウで、[ノード] > [ノードプール] を選択します。

LINGJUN ノードプールの作成

コンソールでノードプールを設定できます。設定には、基本、ネットワーク、ストレージの設定が含まれます。ノードプールの可用性やネットワークに関連する一部の設定項目は、ノードプール作成後に変更できないことにご注意ください。ノードプールを作成しても、既存の他のノードプール内のノードやサービスには影響しません。

[ノードプール] ページで、[...] > [LINGJUN ノードプールの作成] をクリックします。[LINGJUN ノードプールの作成] ダイアログボックスで、設定を完了し、既存の LINGJUN クラスターと LINGJUN グループを関連付けます。

ノードプールが作成された後、[ノードプールの編集] ページで設定項目を変更できます。次の表は、ノードプール作成後に設定項目が変更可能かどうかを示しています。

重要

現在、LINGJUN ノードプールは、コンテナーランタイムデータをシステムディスクにのみ保存することをサポートしています。

説明

LINGJUN Connection を使用する Node Lingjun インスタンスの場合、ACK VPD CNI コンポーネントのホワイトリストに追加されるようにリクエストを送信する必要があります。LINGJUN ノードプールを作成する前に、[コンポーネント管理] ページで ACK VPD CNI コンポーネントをインストールします。LINGJUN Connection を使用するノードグループに対して LINGJUN ノードプールを作成すると、ACK は自動的に LINGJUN グループの CIDR ブロックをクラスターのセキュリティグループに追加し、インバウンドアクセスを許可します。ACK はまた、自動的に alibabacloud.com/lingjun-network-type: vpd ラベルをノードプールに追加します。このラベルは削除しないでください。

クリックして詳細な設定表を表示します。

  • 基本構成

    設定項目

    説明

    変更可能

    ノードプール名

    カスタムのノードプール名。

    はい

    リージョン

    現在のクラスターのリージョンがデフォルトで選択され、変更できません。

    いいえ

    コンテナランタイム

    LINGJUN ノードプールは、コンテナランタイムとして containerd を使用する ACK Managed Cluster Pro Edition のみをサポートします。

    いいえ

  • LINGJUN リソース

    設定項目

    説明

    変更可能

    LINGJUN クラスター

    ACK クラスターと同じ VPC にある Lite タイプの LINGJUN クラスターを選択できます。

    いいえ

    LINGJUN グループ

    LINGJUN ノードプールと同じ VPC にあり、どの LINGJUN ノードプールにも関連付けられていない LINGJUN グループを選択できます。

    いいえ

  • 高度な設定

    [詳細オプション (オプション)] を展開して、ノードラベル、Taint、その他の情報を設定します。

    設定項目

    説明

    変更可能

    Taints

    ノードにキーと値のペアの Taint を追加します。有効な Taint キーは、オプションのプレフィックスと名前で構成されます。プレフィックスが存在する場合、名前とはスラッシュ (/) で区切られます。

    詳細

    • キー:名前は 1~63 文字である必要があります。英字または数字 [a-z0-9A-Z] で始まり、終わり、英字、数字、ハイフン (-)、アンダースコア (_)、ピリオド (.) を含めることができます。

      プレフィックスを指定する場合、それは DNS サブドメインである必要があります。これは、ピリオド (.) で区切られた一連の DNS ラベルで、最大 253 文字で、スラッシュ (/) で終わります。

    • :Taint の値は空にすることができます。63 文字以下である必要があります。英字または数字 [a-z0-9A-Z] で始まり、終わり、英字、数字、ハイフン (-)、アンダースコア (_)、ピリオド (.) を含めることができます。

    • 効果

      • NoSchedule:この Taint を許容しない新しい Pod はノードにスケジュールできませんが、既存の実行中の Pod には影響しません。

      • NoExecute:この Taint を許容しない新しい Pod がノードにスケジュールされるのを防ぐだけでなく、ノード上で実行中のこの Taint を許容しない既存の Pod もすべて退去させられます。

      • PreferNoSchedule:ACK は、許容しない Taint を持つノードへの Pod のスケジューリングを避けようとしますが、これは強制ではありません。

    はい

    ノードラベル

    重要

    LINGJUN ノードプールを作成すると、ACK は自動的にノードプールにラベルを追加して排他的 ENI モードを有効にします。作成後にこのラベルを削除しないでください。

    LINGJUN ノードプールに追加されるデフォルトのラベルを削除しないでください:

    • service.alibabacloud.com/exclude-node

    • alibabacloud.com/lingjun-worker

    • alibabacloud.com/lingjun-hpnzone

    • alibabacloud.com/lingjun-zoneid

    • alibabacloud.com/lingjun-network-type: vpd

    • alibabacloud.com/lingjun-machine-type

    • k8s.aliyun.com/exclusive-mode-eni-type: eniOnly

    ノードにキーと値のペアのラベルを追加します。有効なキーは、オプションのプレフィックスと名前で構成されます。プレフィックスが存在する場合、名前とはスラッシュ (/) で区切られます。

    詳細

    • キー:名前は 1~63 文字である必要があります。英数字 [a-z0-9A-Z] で始まり、終わり、英字、数字、ハイフン (-)、アンダースコア (_)、ピリオド (.) を含めることができます。

      プレフィックスを指定する場合、それは DNS サブドメインである必要があります。これは、ピリオド (.) で区切られた一連の DNS ラベルで、最大 253 文字で、スラッシュ (/) で終わります。

      Kubernetes のコアコンポーネントによって予約されており、指定できないプレフィックス

      • kubernetes.io/

      • k8s.io/

      • kubernetes.io/ および k8s.io/ で終わるプレフィックス。例:test.kubernetes.io/

        以下は例外です:

        • kubelet.kubernetes.io/

        • node.kubernetes.io

        • kubelet.kubernetes.io/ で終わるプレフィックス。

        • node.kubernetes.io で終わるプレフィックス。

    • 値:空にすることができます。63 文字以下である必要があります。英数字 [a-z0-9A-Z] で始まり、終わり、英字、数字、ハイフン (-)、アンダースコア (_)、ピリオド (.) を含めることができます。

    はい

既存の Node Lingjun インスタンスの追加

LINGJUN グループの Node Lingjun インスタンスをワーカーノードとして ACK クラスターに追加する、または削除されたワーカーノードを再追加するには、ACK コンソールで関連付けられたグループから LINGJUN ノードプールにバッチで追加できます。ノードが追加された後、ノードプールレベルで管理できます。

既存の Node Lingjun インスタンスを追加しても、それらのオペレーティングシステム、システムディスク、データディスクは置き換えられず、保存されているデータにも影響しません。追加したい Node Lingjun インスタンスは、ノードプールに関連付けられている LINGJUN グループに属している必要があり、まだノードプールに追加されていない必要があります。

  • ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] を選択します。

  • [クラスター] ページで、対象のクラスターの名前をクリックします。左側のナビゲーションウィンドウで、[ノード] > [ノードプール] を選択します。

  • [ノードプール] ページで、[⋮] > [既存ノードの追加] をクリックします。

    説明

    Node Lingjun インスタンスが正常に追加されると、ACK Managed Cluster Pro Edition は自動的に対応するタグを追加します。これらのタグは Intelligent Computing LINGJUN コンソールで確認できます。

    • ack.aliyun.com:Node Lingjun インスタンスを管理する ACK Managed Cluster Pro Edition の ID。

    • ack.alibabacloud.com/nodepool-id:Node Lingjun インスタンスを管理する LINGJUN ノードプールの ID。

Node Lingjun インスタンスの削除

  • ノードプールに追加された Node Lingjun インスタンスは、ACK クラスターまたは LINGJUN ノードプールを削除しても解放されません。インスタンスはスケールインによって LINGJUN グループから自動的に削除されません。追加料金を避けるために、Node Lingjun インスタンスの課金状況を監視する必要があります。

  • Node Lingjun インスタンスを削除すると、LINGJUN ノードプールから削除されるだけで、LINGJUN グループからは削除されません。Node Lingjun インスタンスとグループのその他の管理操作については、Intelligent Computing LINGJUN コンソールに移動してください。

RDMA 機能の使用

Node Lingjun インスタンスで Remote Direct Memory Access (RDMA) 通信を有効にするには、コンソールで対象クラスターの詳細ページに移動します。左側のナビゲーションウィンドウで、[運用] > [アドオン] を選択し、ack-rdma-device-plugin コンポーネントを手動でインストールします。

Pod で利用可能なネットワークモードは、LINGJUN ノードプールに関連付けられている LINGJUN ベアメタルクラスターのコンピューティングネットワークの IP バージョンによって異なります。

コンピューティングネットワークの IP バージョン

サポートされる RDMA ネットワークモード

設定説明

IPv4

hostNetwork モードのみがサポートされます。

Pod は hostNetwork モードでのみ RDMA 通信をサポートします。

IPv6

  • hostNetwork モード。

  • non-hostNetwork モード。

  • デフォルトでは hostNetwork モードが使用されます。

  • non-hostNetwork モードで RDMA を使用するには、ack-rdma-device-plugin コンポーネントの設定で、[non-hostnetwork モードで Pod が RDMA を使用することを許可する] を有効にします。

詳細については、「Pod の Node Lingjun インスタンスで RDMA ネットワークを使用する」をご参照ください。

Terway 排他的 ENI モードの使用

Terway を使用する場合、LINGJUN ノードプールは排他的 Elastic Network Interface (ENI) ネットワークモードのみをサポートし、Terway v1.14.4 以降が必要です。Terway コンポーネントのバージョンが v1.14.4 より古い場合は、「コンポーネントのアップグレード」で説明されているように terway-eniip コンポーネントをアップグレードしてください。

LINGJUN ノードプールを作成すると、ACK は自動的に k8s.aliyun.com/exclusive-mode-eni-type: eniOnly ラベルをノードプールに追加して排他的 ENI モードを有効にします。このラベルは削除しないでください。詳細については、「ノードプールの排他的 ENI ネットワークモードの設定」をご参照ください。

LINGJUN ノードプールにこのラベルがない場合、共有 ENI ネットワークモードが使用されます。
重要

Node Lingjun インスタンスが VPC ネットワーク通信に共有 ENI モードを使用すると、Pod のネットワーク障害が時折発生する可能性があります。Pod を再起動することで一時的にサービスを復旧できます。この問題を完全に解決するには、オフピーク時に Terway コンポーネントを最新バージョンにアップグレードしてください。その後、排他的 ENI モードで LINGJUN ノードプールを再作成し、Node Lingjun インスタンスを新しいノードプールに追加します。

コンポーネントのアップグレード

ACK Managed Cluster Pro Edition を作成すると、デフォルトで最新のコンポーネントバージョンが使用されます。既存の ACK Managed Cluster Pro Edition に LINGJUN ノードプールを作成する場合、以下のコンポーネントを指定されたバージョンにアップグレードする必要があります。コンポーネントをアップグレードするには、コンソールで対象クラスターの詳細ページに移動し、左側のナビゲーションウィンドウで [運用] > [アドオン] を選択します。

コンポーネント名

最小バージョン要件

Kube Scheduler

v1.31

terway-eniip

v1.14.4

CoreDNS

v1.11.3.5-5321daf49-aliyun

Nginx Ingress Controller

v1.11.4-aliyun.2

ack-pod-identity-webhook

v0.2.1

security-inspector

v0.16.1.0-gea4d02f-aliyun

alicloud-monitor-controller

v1.8.4

ack-arms-prometheus

v1.1.31

logtail-ds

v2.1.6

csi-provisioner

v1.32.2

csi-plugin

v1.32.2

aliyun-acr-acceleration-suite

v0.2.10

ack-ai-installer ([アプリケーション] > [クラウドネイティブ AI スイートのインストール])

v1.12.2

関連操作

  • 共有 GPU スケジューリングの使用。

    ACK Managed Cluster Pro Edition の Node Lingjun インスタンスで共有 GPU スケジューリングを使用し、GPU 共有と隔離を有効にするには、まずクラウドネイティブ AI スイートの ack-ai-installer コンポーネントをインストールする必要があります。詳細については、「共有 GPU スケジューリングの使用」をご参照ください。

  • Binpack スケジューリングポリシーの有効化。

    LINGJUN ノードプールでモデルトレーニングジョブを実行する際、Pod スケジューリングに Binpack ポリシーを有効にできます。このポリシーは、トレーニング中のマシン間通信の遅延を減らすために、Pod を同じマシンに優先的にスケジューリングします。Kube Scheduler コンポーネントで binpack を有効にする方法の詳細については、「スケジューラパラメータのカスタマイズ」をご参照ください。

  • LINGJUN ノードプールでのトポロジー認識スケジューリングの使用。

    LINGJUN ノードプールでトポロジー認識スケジューリングを使用するには、Kube Scheduler をインストールし、v1.31 以降にアップグレードする必要があります。詳細については、「トポロジー認識スケジューリングの使用」をご参照ください。

よくある質問

修復後もノードが Not Ready 状態のままになる

  • 背景:ハードウェアの問題により、Node Lingjun インスタンスが修復のためにオフラインになりました。修復が完了した後も、ACK クラスター内でノードのステータスが Not Ready のままです。

  • 原因:オフライン修復中に Node Lingjun インスタンスが交換され、ローカルディスク上のデータは保持されません。これにより、kubelet や containerd などのコンテナランタイムの情報がクリアされ、ノードが異常状態になります。

  • 解決策:修復が完了した後、手動でノードをノードプールから削除し、[既存ノードの追加] 機能を使用して再追加する必要があります。