ebmgn7 または ebmgn7e GPU コンピューティング最適化 ECS ベアメタルインスタンスファミリーの Ubuntu インスタンスでは、apt-daily サービスがスタンドアロンパッケージとしてインストールされた場合、自動的に nvidia-fabricmanager をアップグレードすることがあります。この nvidia-fabricmanager と Tesla ドライバー間のバージョン不一致により、nvidia-fabricmanager の起動に失敗し、GPU が利用不可になります。
症状
nvidia-fabricmanager をスタンドアロンの apt パッケージとしてインストールした後、サービスのステータスを確認すると以下のエラーが表示され、GPU が利用不可になります。

原因
apt-daily サービスは Ubuntu で自動的なパッケージアップグレードを実行します。nvidia-fabricmanager がスタンドアロンの apt パッケージとしてインストールされている場合、apt-daily は Tesla ドライバーとは独立して nvidia-fabricmanager をアップグレードします。このバージョン不一致により、nvidia-fabricmanager が起動時に失敗し、GPU が利用不可になります。
nvidia-fabricmanager と Tesla ドライバーは、バージョンが完全に一致している必要があります。バージョンが異なる場合、nvidia-fabricmanager は起動しません。
ソリューション
GPU の可用性を復元し、今後のバージョン不一致を防止するには、以下の手順を実行してください。
ステップ 1:バージョンの確認
nvidia-fabricmanager のバージョンを確認します。
sudo dpkg --list | grep nvidia-fabricmanagerこの例では、nvidia-fabricmanager のバージョンは
550.90.07であり、パッケージ名はnvidia-fabricmanager-550です。
Tesla ドライバーのバージョンを確認します。
nvidia-smiTesla ドライバーのバージョンは出力ヘッダーに表示されます(例:
550.90.07)。
ステップ 2:バージョン不一致の解消
nvidia-fabricmanager と Tesla ドライバーは、バージョンが完全に一致している必要があります。バージョンが異なる場合、nvidia-fabricmanager は起動しません。
ステップ 1 で確認したバージョンが一致する場合は、ステップ 3 に進んでください。
バージョンが異なる場合は、以下のいずれかの方法で不一致を解消してください。
Tesla ドライバーをアップグレードして、現在の nvidia-fabricmanager のバージョンと一致させます。「NVIDIA Tesla ドライバーのアップグレード」をご参照ください。
nvidia-fabricmanager を再インストールして、Tesla ドライバーのバージョンと一致させます。まず nvidia-fabricmanager をアンインストールするには、「ステップ 1:nvidia-fabricmanager のアンインストール」をご参照ください。
ステップ 3:nvidia-fabricmanager のバージョン固定
次のコマンドを実行して、apt-daily が nvidia-fabricmanager を自動的にアップグレードするのを防ぎます。手順 1 で確認した実際のパッケージ名に nvidia-fabricmanager-550 を置き換えます。
sudo apt-mark hold nvidia-fabricmanager-550以下の結果が表示された場合、nvidia-fabricmanager の更新が禁止されています。

ステップ 4:固定状態の確認
sudo apt-mark showhold出力には、すべての固定済みパッケージが一覧表示されます。nvidia-fabricmanager-550 が、cloud-init とともにリストに含まれていることを確認してください。
cloud-init
nvidia-fabricmanager-550