建立執行個體

您可以按照 建立ECS執行個體 的描述建立gn4、gn5執行個體,建立時需要注意以下配置。

  • 地域:不同的執行個體規格類型系列供應的地域資訊不同。如下所示:
    • gn4:華北2(可用性區域A)、華東2(可用性區域B)、華南1(可用性區域C)
    • gn5:華北2(可用性區域C、E)、華北5(可用性區域A)、華東1(可用性區域G、F)、華東2(可用性區域D、B、E)、華南1(可用性區域D)、香港(可用性區域C、B)、亞太東南1(可用性區域B、A)、亞太東南2(可用性區域A)、亞太東南3(可用性區域A)、亞太東南5(可用性區域A)、美國西部1(可用性區域B、A)、美國東部1(可用性區域B、A)、歐洲中部1(可用性區域A)
    如果ECS建立頁面顯示的地域和可用性區域資訊與上述描述不符,以ECS建立頁面上顯示的資訊為準。
  • 鏡像
    • 如果您需要安裝GPU驅動和CUDA庫,可以選擇以下任一種方式:
      • 選擇 公共鏡像 中的CentOS 64位(目前提供的所有版本都支援)、Ubuntu16.04 64位或SUSE Linux Enterprise Server 12 SP2 64位鏡像,並選擇 自動安裝GPU驅動。再選擇需要的CUDA庫和GPU驅動的版本。
        说明
        • 您可以根據您的業務需要選擇合適的GPU驅動版本。如果是新業務系統,建議您在下拉式功能表中選擇最新的GPU驅動版本。
        • 如果選擇 自動安裝GPU驅動系統配置進階選項 中會自動生成 執行個體自訂資料,即自動安裝CUDA庫和GPU驅動的shell指令碼或直譯式程式。執行個體第一次啟動後,cloud-init會自動執行指令碼或直譯式程式,自動安裝GPU驅動。更多資訊,參見 自動安裝GPU驅動指令碼或直譯式程式注意事項
      • 選擇 鏡像市場,並搜尋 NVIDIA,在搜尋結果中選擇需要的鏡像。目前只支援CentOS 7.3和Ubuntu 16.04。
    • 除上述以外的其他鏡像,執行個體建立完成後,自行 下載並安裝GPU驅動
  • 執行個體:選擇 異構計算GPU/FPGA > GPU計算型,按需求選擇合適的執行個體規格。
  • 網路:選擇 專有網路
  • 公網頻寬:根據您的實際需要選擇頻寬。
    说明
    如果使用Windows 2008 R2鏡像,GPU驅動安裝生效後,您不能使用控制台的 遠端連線 功能串連gn4、gn5或gn5i執行個體,所以,您必須選擇 分配公網IP地址,或者建立執行個體後绑定EIP 。
  • 登入憑證:根據實際需求設定登入憑證。
    说明
    建議您不要選擇 建立後設定。執行個體建立成功後,GPU驅動安裝成功之前,如果您需要登入執行個體,必須重設密碼或者綁定SSH金鑰組,需要重啟執行個體使修改生效,而重啟操作會導致GPU驅動安裝失敗。
  • 執行個體自訂資料:如果選擇了 自動安裝GPU驅動,這裡會顯示自動安裝CUDA庫和GPU驅動的shell指令碼或直譯式程式。請您仔細閱讀指令碼或直譯式程式內容和注意事項。

查看自動安裝GPU驅動進程

如果您選擇了 自動安裝GPU驅動,執行個體建立完成後,您可以 遠端連線執行個體,通過安裝日誌 /root/nvidia_install.log查看GPU驅動的安裝進程。

说明
GPU驅動安裝完成前,您不能操作GPU,也不能安裝其他GPU相關軟體,以免自動安裝失敗。

下載並安裝GPU驅動

如果使用沒有預裝GPU驅動的鏡像,您必須為執行個體安裝GPU驅動。操作步驟如下:

  1. 獲取GPU驅動安裝包:
    1. 進入 NVIDIA 官網
    2. 手動尋找適用於執行個體的驅動程式,並單擊 搜尋。篩選資訊說明如下表所示。
      gn4 gn5
      產品類型 Tesla Tesla
      產品系列 M-Class P-Series
      產品家族 M40 Tesla P100
      作業系統 根據執行個體的鏡像選擇對應的版本。如果下拉式清單中沒有顯示伺服器作業系統,請單擊下拉式清單底部的 選擇所有作業系統

    3. 確認無誤後,單擊 下載 按鈕。
  2. 安裝GPU驅動:
    • Windows執行個體:直接雙擊安裝GPU驅動。
    • Linux執行個體:按以下步驟安裝驅動
      1. 下載並安裝kernel對應版本的kernel-devel和kernel-header包。
      2. 運行以下命令,確認已經完成下載並安裝kernel-devel和kernel-header包:
        sudo rpm -qa | grep $(uname -r)

        以CentOS 7.3為例,如果出現以下類似資訊,表示已經完成安裝。

        
        kernel-3.10.0-514.26.2.el7.x86_64
        kernel-headers-3.10.0-514.26.2.el7.x86_64
        kernel-tools-libs-3.10.0-514.26.2.el7.x86_64
        python-perf-3.10.0-514.26.2.el7.x86_64
        kernel-tools-3.10.0-514.26.2.el7.x86_64
      3. 按NVIDIA官網GPU驅動下載頁的 其他資訊 描述安裝GPU驅動。
        以Linux 64-bit Ubuntu 14.04為例:

安裝GRID驅動

如果gn5執行個體需要支援OpenGL圖形顯示,必須安裝GRID驅動,具體操作,請參見 在gn5執行個體中安裝GRID驅動

注意事項

遠端連線功能

對於Windows 2008 R2及以下版本,GPU驅動安裝生效後,控制台的 遠端連線 功能不可用,管理終端 會始終顯示黑屏或停留在啟動介面。請您通過其他協議進入系統,如Windows自帶的遠端連線(RDP)。

Windows自帶的遠端連線(RDP)協議不支援DirectX、OpenGL等相關應用,您需自行安裝VNC服務和用戶端,或其他支援的協議,例如PCOIP、XenDeskop HDX 3D等。

自動安裝GPU驅動指令碼或直譯式程式

關於自動安裝GPU驅動的shell指令碼或直譯式程式,注意事項如下:

  • 該指令碼或直譯式程式會自動下載並安裝NVIDIA GPU的驅動和CUDA庫。
  • 因執行個體規格的內網頻寬和vCPU核心數不同,實際自動安裝時間為4.5分鐘 ~ 10分鐘不等。安裝GPU驅動時,您不能操作GPU,也不能安裝其他GPU相關軟體,以免自動安裝失敗。
  • 自動安裝結束後,執行個體自動重啟,使驅動生效。
  • 指令碼或直譯式程式會自動開啟GPU驅動的 Persistence Mode,並將該設定添加到系統自啟動指令碼或直譯式程式中,確保執行個體重啟後還能預設開啟該模式。該模式下GPU驅動工作更穩定。
  • 更換作業系統 時,您需要注意以下資訊:
    • 如果原來的鏡像是Ubuntu16.04 64位或SUSE Linux Enterprise Server 12 SP2 64位,換成其他鏡像後,無法自動安裝GPU驅動。
    • 如果原來的鏡像是CentOS的某個版本,換成其他版本的CentOS鏡像後,GPU驅動能正常安裝。
    • 如果換成其他不支援自動安裝GPU驅動指令碼或直譯式程式的鏡像,無法自動安裝GPU驅動。
  • 安裝過程中會生成相應的安裝日誌,日誌存放路徑為 /root/nvidia_install.log。您可以通過日誌查看驅動安裝是否成功。如果失敗,您可以通過日誌查看失敗原因。