ebmgn7、ebmgn7e などの GPU コンピューティング型インスタンスで Ubuntu オペレーティングシステムを実行している場合に、パッケージから nvidia-fabricmanager サービスをインストールすると、apt-daily サービスによってパッケージが自動的に更新されることがあります。これにより、Tesla ドライバーとのバージョンに不一致が生じ、nvidia-fabricmanager サービスが起動できなくなり、GPU が利用できなくなります。このトピックでは、この問題の解決方法について説明します。
問題の説明
インストールパッケージで nvidia-fabricmanager をインストールした後、サービスステータスを確認すると、次のエラーメッセージが表示されます。この場合、GPU は期待どおりに動作しません。
root@xxx:~# systemctl status nvidia-fabricmanager
× nvidia-fabricmanager.service - NVIDIA fabric manager service
Loaded: loaded (/lib/systemd/system/nvidia-fabricmanager.service; enabled; vendor preset: enabled)
Active: failed (Result: exit-code) since Mon 2024-09-09 18:05:58 CST; 22s ago
Process: 36178 ExecStart=/usr/bin/nv-fabricmanager -c /usr/share/nvidia/nvswitch/fabricmanager.cfg (code=exited, status=1/FAILURE)
CPU: 66ms
Sep 09 18:05:58 iZ2xxx0d5fZ systemd[1]: Starting NVIDIA fabric manager service...
Sep 09 18:05:58 iZ2xxx fZ nv-fabricmanager[36180]: fabric manager NVIDIA GPU driver interface version 550.90.07 don't match with driver version 550.54.15. Please up
Sep 09 18:05:58 iZ2xxx fZ nv-fabricmanager[36180]: fabric manager NVIDIA GPU driver interface version 550.90.07 don't match with driver version 550.54.15. Please up
Sep 09 18:05:58 iZ2xxx fZ systemd[1]: nvidia-fabricmanager.service: Control process exited, code=exited, status=1/FAILURE
Sep 09 18:05:58 ixxxd5fZ systemd[1]: nvidia-fabricmanager.service: Failed with result 'exit-code'.
Sep 09 18:05:58 iZ2xxx5fZ systemd[1]: Failed to start NVIDIA fabric manager service.
原因
Ubuntu を実行する GPU コンピューティング最適化インスタンスにインストールパッケージで nvidia-fabricmanager をインストールすると、apt-daily サービスによって nvidia-fabricmanager が自動的に更新されます。これにより、nvidia-fabricmanager と Tesla ドライバーのバージョンに不一致が発生します。その結果、nvidia-fabricmanager が起動に失敗し、GPU が期待どおりに動作しなくなります。
ソリューション
GPU が期待どおりに動作するには、nvidia-fabricmanager のバージョンが Tesla ドライバーのバージョンと一致している必要があります。nvidia-fabricmanager と Tesla ドライバーのバージョンの不一致によって GPU が利用できなくなる問題を防止または解決するには、次の手順を実行します。
-
nvidia-fabricmanager のバージョンと Tesla ドライバーのバージョンを確認します。
-
次のコマンドを実行して、nvidia-fabricmanager のバージョンを確認します。
sudo dpkg --list |grep nvidia-fabricmanagerこの例では、nvidia-fabricmanager のバージョンは
550.90.07です。nvidia-fabricmanager-550はインストールパッケージの名前です。ii nvidia-fabricmanager-550 550.90.07-1 amd64 Fabric Manager for NVSwitch based systems. -
次のコマンドを実行して、Tesla ドライバーのバージョンを確認します。
nvidia-smiこの例では、Tesla ドライバーのバージョンは
550.54.15です。NVIDIA-SMI 550.54.15 Driver Version: 550.54.15 CUDA Version: 12.4 GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | MIG M. ====================================================================================== 0 NVIDIA A10 On | 00000000:00:07.0 Off | 0 0% 35C P8 9W / 150W | 1MiB / 23028MiB | 0% Default | | | N/A | Processes: GPU GI CI PID Type Process name GPU Memory ID ID Usage No running processes found
-
現在の nvidia-fabricmanager のバージョンが Tesla ドライバーのバージョンと一致しているかどうかを確認します。
2 つのバージョンが一致している場合は、次の手順に進みます。
2 つのバージョンが一致しない場合は、次のいずれかの操作を実行してください。
Tesla ドライバーをアップグレードして、Tesla ドライバーのバージョンが nvidia-fabricmanager のバージョンと一致するようにしてください。詳細については、「NVIDIA Teslaドライバーのアップグレード」をご参照ください。
nvidia-fabricmanager をアンインストールしてから再インストールします。その後、次の手順に進みます。
説明nvidia-fabricmanager をアンインストールする方法については、「手順1:nvidia-fabricmanagerのアンインストール」をご参照ください。
-
次のコマンドを実行して、nvidia-fabricmanager が自動的に更新されないようにします。
この例では、インストールパッケージ
nvidia-fabricmanager-550を使用しています。コマンド内のインストールパッケージ名は、実際の nvidia-fabricmanager パッケージ名に置き換えてください。sudo apt-mark hold nvidia-fabricmanager-550次の結果が表示された場合、nvidia-fabricmanager の更新がロックされます。
nvidia-fabricmanager-550 set on hold. -
次のコマンドを実行して、
nvidia-fabricmanagerの更新がロックされていることを確認します。sudo apt-mark showholdcloud-initとnvidia-fabricmanager-550の情報が表示された場合、nvidia-fabricmanager の更新はロックされています。