すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:nvidia-fabricmanager のバージョンの不一致による GPU の利用不可

最終更新日:Jun 22, 2026

ebmgn7、ebmgn7e などの GPU コンピューティング型インスタンスで Ubuntu オペレーティングシステムを実行している場合に、パッケージから nvidia-fabricmanager サービスをインストールすると、apt-daily サービスによってパッケージが自動的に更新されることがあります。これにより、Tesla ドライバーとのバージョンに不一致が生じ、nvidia-fabricmanager サービスが起動できなくなり、GPU が利用できなくなります。このトピックでは、この問題の解決方法について説明します。

問題の説明

インストールパッケージで nvidia-fabricmanager をインストールした後、サービスステータスを確認すると、次のエラーメッセージが表示されます。この場合、GPU は期待どおりに動作しません。

root@xxx:~# systemctl status nvidia-fabricmanager
× nvidia-fabricmanager.service - NVIDIA fabric manager service
     Loaded: loaded (/lib/systemd/system/nvidia-fabricmanager.service; enabled; vendor preset: enabled)
     Active: failed (Result: exit-code) since Mon 2024-09-09 18:05:58 CST; 22s ago
    Process: 36178 ExecStart=/usr/bin/nv-fabricmanager -c /usr/share/nvidia/nvswitch/fabricmanager.cfg (code=exited, status=1/FAILURE)
        CPU: 66ms
Sep 09 18:05:58 iZ2xxx0d5fZ systemd[1]: Starting NVIDIA fabric manager service...
Sep 09 18:05:58 iZ2xxx fZ nv-fabricmanager[36180]: fabric manager NVIDIA GPU driver interface version 550.90.07 don't match with driver version 550.54.15. Please up
Sep 09 18:05:58 iZ2xxx fZ nv-fabricmanager[36180]: fabric manager NVIDIA GPU driver interface version 550.90.07 don't match with driver version 550.54.15. Please up
Sep 09 18:05:58 iZ2xxx fZ systemd[1]: nvidia-fabricmanager.service: Control process exited, code=exited, status=1/FAILURE
Sep 09 18:05:58 ixxxd5fZ systemd[1]: nvidia-fabricmanager.service: Failed with result 'exit-code'.
Sep 09 18:05:58 iZ2xxx5fZ systemd[1]: Failed to start NVIDIA fabric manager service.

原因

Ubuntu を実行する GPU コンピューティング最適化インスタンスにインストールパッケージで nvidia-fabricmanager をインストールすると、apt-daily サービスによって nvidia-fabricmanager が自動的に更新されます。これにより、nvidia-fabricmanager と Tesla ドライバーのバージョンに不一致が発生します。その結果、nvidia-fabricmanager が起動に失敗し、GPU が期待どおりに動作しなくなります。

ソリューション

GPU が期待どおりに動作するには、nvidia-fabricmanager のバージョンが Tesla ドライバーのバージョンと一致している必要があります。nvidia-fabricmanager と Tesla ドライバーのバージョンの不一致によって GPU が利用できなくなる問題を防止または解決するには、次の手順を実行します。

  1. nvidia-fabricmanager のバージョンと Tesla ドライバーのバージョンを確認します。

    • 次のコマンドを実行して、nvidia-fabricmanager のバージョンを確認します。

      sudo dpkg --list |grep nvidia-fabricmanager

      この例では、nvidia-fabricmanager のバージョンは 550.90.07 です。nvidia-fabricmanager-550 はインストールパッケージの名前です。

      ii  nvidia-fabricmanager-550                 550.90.07-1                              amd64        Fabric Manager for NVSwitch based systems.
    • 次のコマンドを実行して、Tesla ドライバーのバージョンを確認します。

      nvidia-smi

      この例では、Tesla ドライバーのバージョンは 550.54.15 です。

      NVIDIA-SMI 550.54.15        Driver Version: 550.54.15    CUDA Version: 12.4
       GPU  Name           Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC
       Fan  Temp  Perf     Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M.
                                         |                      |               MIG M.
      ======================================================================================
         0  NVIDIA A10              On  | 00000000:00:07.0 Off |                    0
        0%   35C    P8        9W / 150W |      1MiB / 23028MiB |      0%    Default |
                                         |                      |               N/A |
      Processes:
        GPU   GI   CI        PID   Type   Process name            GPU Memory
              ID   ID                                             Usage
        No running processes found
  2. 現在の nvidia-fabricmanager のバージョンが Tesla ドライバーのバージョンと一致しているかどうかを確認します。

    • 2 つのバージョンが一致している場合は、次の手順に進みます。

    • 2 つのバージョンが一致しない場合は、次のいずれかの操作を実行してください。

      • Tesla ドライバーをアップグレードして、Tesla ドライバーのバージョンが nvidia-fabricmanager のバージョンと一致するようにしてください。詳細については、「NVIDIA Teslaドライバーのアップグレード」をご参照ください。

      • nvidia-fabricmanager をアンインストールしてから再インストールします。その後、次の手順に進みます。

        説明

        nvidia-fabricmanager をアンインストールする方法については、「手順1:nvidia-fabricmanagerのアンインストール」をご参照ください。

  3. 次のコマンドを実行して、nvidia-fabricmanager が自動的に更新されないようにします。

    この例では、インストールパッケージ nvidia-fabricmanager-550 を使用しています。コマンド内のインストールパッケージ名は、実際の nvidia-fabricmanager パッケージ名に置き換えてください。

    sudo apt-mark hold nvidia-fabricmanager-550 

    次の結果が表示された場合、nvidia-fabricmanager の更新がロックされます。

    nvidia-fabricmanager-550 set on hold.
  4. 次のコマンドを実行して、nvidia-fabricmanager の更新がロックされていることを確認します。

    sudo apt-mark showhold

    cloud-initnvidia-fabricmanager-550 の情報が表示された場合、nvidia-fabricmanager の更新はロックされています。