PyTorch のインポート時に発生する

Linux GPU 加速インスタンスで PyTorch をインポートする際に、インスタンスの CUDA バージョンと PyTorch のバージョン間に互換性がないことが原因でエラーが発生することがあります。本トピックでは、この問題の解決方法について説明します。

現象

Alibaba Cloud Linux 3 などの Linux オペレーティングシステムを実行する GPU 加速インスタンスで PyTorch を使用すると、次のようなエラーが表示されることがあります。

>>> import torch
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.8/dist-packages/torch/__init__.py", line 235, in <module>
    from torch._C import *  # noqa: F403
ImportError: /usr/local/lib/python3.8/dist-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12

原因

この問題は、GPU 加速インスタンス上の CUDA バージョンが PyTorch のバージョンと互換性がないために発生します。CUDA と PyTorch のバージョンの互換性の詳細については、「Previous PyTorch Versions」をご参照ください。

sudo pip3 install torch コマンドを実行してインストールされた PyTorch 2.1.2 は、CUDA 12.1 を必要とします。しかし、GPU 加速インスタンスの購入時に自動的にインストールされる CUDA のバージョンは 12.0 です。このバージョンの不一致がエラーの原因となります。

解決策

GPU 高速化インスタンスの購入時に、[イメージ] セクションの [パブリックイメージ] タブで [GPU ドライバーの自動インストール] オプションを選択した場合、以下のいずれかの方法を使用して CUDA 12.1.1 にアップグレードできます。

方法1：CUDA の手動インストール

CUDA 12.1.1 を手動でインストールします。詳細については、「NVIDIA CUDA Installation Guide for Linux」をご参照ください。
方法2：カスタムスクリプトを使用した CUDA のインストール
1. 既存の GPU 加速インスタンスをリリースします。
  
  詳細については、「インスタンスのリリース」をご参照ください。
2. 新しい GPU 加速インスタンスを作成します。
  
  詳細については、「GPU 加速インスタンスの作成」をご参照ください。主要なパラメーターを次のように設定します。
  - [イメージ] セクションの [パブリックイメージ] タブで、[GPU ドライバーの自動インストール] オプションが選択解除されていることを確認してください。
  - [詳細設定 (任意)] の [ユーザーデータ] セクションに、NVIDIA Tesla ドライバー 535.154.05 と CUDA 12.1.1 をインストールするカスタムスクリプトを入力します。次のスクリプトは一例です：
    
    カスタムスクリプトのサンプル
    
    #!/bin/sh #インストールするバージョン DRIVER_VERSION="535.154.05" CUDA_VERSION="12.1.1" CUDNN_VERSION="8.9.7.29" IS_INSTALL_eRDMA="FALSE" IS_INSTALL_RDMA="FALSE" INSTALL_DIR="/root/auto_install" # .run を使用してドライバーと CUDA をインストール auto_install_script="auto_install_v4.0.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url rm -rf $INSTALL_DIR mkdir -p $INSTALL_DIR cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA
方法3：ユーザーデータの変更とオペレーティングシステムの交換
1. 既存の GPU 加速インスタンスを停止します。
  
  詳細については、「インスタンスの停止」をご参照ください。
2. インスタンスリストで停止済みの GPU 高速化インスタンスを見つけ、[操作] 列で [インスタンスの設定] > [ユーザーデータの設定] を選択します。
3. ユーザーデータを変更し、[OK] をクリックします。
  
  DRIVER_VERSION、CUDA_VERSION、および CUDNN_VERSION パラメーターの値を次のように変更します。
```
...
DRIVER_VERSION="535.154.05"
CUDA_VERSION="12.1.1"
CUDNN_VERSION="8.9.7.29"
...
```
4. GPU 加速インスタンスのオペレーティングシステムを交換します。
  
  詳細については、「インスタンスのオペレーティングシステム (システムディスク) の交換」をご参照ください。
  
  GPU 加速インスタンスが再起動すると、システムは新しいバージョンの NVIDIA Tesla ドライバー、CUDA、および cuDNN を再インストールします。