すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:nvidia-fabricmanager と Tesla ドライバーのバージョン不一致による GPU の利用不可

最終更新日:Apr 01, 2026

ebmgn7 または ebmgn7e GPU コンピューティング最適化 ECS ベアメタルインスタンスファミリーの Ubuntu インスタンスでは、apt-daily サービスがスタンドアロンパッケージとしてインストールされた場合、自動的に nvidia-fabricmanager をアップグレードすることがあります。この nvidia-fabricmanager と Tesla ドライバー間のバージョン不一致により、nvidia-fabricmanager の起動に失敗し、GPU が利用不可になります。

症状

nvidia-fabricmanager をスタンドアロンの apt パッケージとしてインストールした後、サービスのステータスを確認すると以下のエラーが表示され、GPU が利用不可になります。

报错.jpg

原因

apt-daily サービスは Ubuntu で自動的なパッケージアップグレードを実行します。nvidia-fabricmanager がスタンドアロンの apt パッケージとしてインストールされている場合、apt-daily は Tesla ドライバーとは独立して nvidia-fabricmanager をアップグレードします。このバージョン不一致により、nvidia-fabricmanager が起動時に失敗し、GPU が利用不可になります。

nvidia-fabricmanager と Tesla ドライバーは、バージョンが完全に一致している必要があります。バージョンが異なる場合、nvidia-fabricmanager は起動しません。

ソリューション

GPU の可用性を復元し、今後のバージョン不一致を防止するには、以下の手順を実行してください。

ステップ 1:バージョンの確認

  1. nvidia-fabricmanager のバージョンを確認します。

    sudo dpkg --list | grep nvidia-fabricmanager

    この例では、nvidia-fabricmanager のバージョンは 550.90.07 であり、パッケージ名は nvidia-fabricmanager-550 です。

    fabricmanager.jpg

  2. Tesla ドライバーのバージョンを確認します。

    nvidia-smi

    Tesla ドライバーのバージョンは出力ヘッダーに表示されます(例:550.90.07)。

    驱动版本-550.jpg

ステップ 2:バージョン不一致の解消

nvidia-fabricmanager と Tesla ドライバーは、バージョンが完全に一致している必要があります。バージョンが異なる場合、nvidia-fabricmanager は起動しません。

ステップ 1 で確認したバージョンが一致する場合は、ステップ 3 に進んでください。

バージョンが異なる場合は、以下のいずれかの方法で不一致を解消してください。

ステップ 3:nvidia-fabricmanager のバージョン固定

次のコマンドを実行して、apt-daily が nvidia-fabricmanager を自動的にアップグレードするのを防ぎます。手順 1 で確認した実際のパッケージ名に nvidia-fabricmanager-550 を置き換えます。

sudo apt-mark hold nvidia-fabricmanager-550

以下の結果が表示された場合、nvidia-fabricmanager の更新が禁止されています。

禁止自动升级.jpg

ステップ 4:固定状態の確認

sudo apt-mark showhold

出力には、すべての固定済みパッケージが一覧表示されます。nvidia-fabricmanager-550 が、cloud-init とともにリストに含まれていることを確認してください。

cloud-init
nvidia-fabricmanager-550
showhold.jpg