全部產品
Search
文件中心

Elastic GPU Service:GPU雲端服務器常見問題

更新時間:Mar 15, 2025

為了有效排查和解決GPU雲端服務器的相關問題,本文為您匯總了使用GPU時遇到的一些常見問題。

類別

相關問題

GPU執行個體

GPU顯卡

Tesla驅動或GRID驅動

GPU監控

如何查看GPU執行個體的資源使用量(vCPU、網路流量、頻寬以及磁碟等)?

其他

如何安裝cGPU服務?

GPU執行個體支援安卓模擬器嗎?

僅部分GPU執行個體支援安裝安卓模擬器。

除GPU計算型ECS Bare Metal Instance執行個體規格類型系列ebmgn7e、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i支援安卓模擬器外,其他類型的GPU執行個體均不支援安卓模擬器。

GPU執行個體的配置支援變更嗎?

僅部分GPU執行個體的配置支援變更。

詳細的執行個體規格變更配置支援情況,請參見支援變更配置的執行個體規格

普通ECS執行個體規格類型系列是否支援升級或變更為GPU執行個體規格類型系列?

普通ECS執行個體規格類型系列不支援直接升級或變更為GPU執行個體規格類型系列。

詳細的執行個體規格變更配置支援情況,請參見支援變更配置的執行個體規格

如何在GPU執行個體和普通ECS執行個體間傳輸資料?

無需特別設定即可傳輸資料。

GPU執行個體除了GPU加速能力外,保留了與普通ECS執行個體一致的使用體驗。同一安全性群組內的GPU執行個體和ECS執行個體之間預設內網互連,所以您無需特別設定。

GPU與CPU有什麼區別?

GPU與CPU的對比如下表所示:

對比項

GPU

CPU

算術運算單元(ALU)

擁有大量擅長處理大規模並發計算的算術運算單元(ALU)。

擁有強大的算術運算單元(ALU),但數量較少。

邏輯控制單元

擁有相對簡單的邏輯控制單元。

擁有複雜的邏輯控制單元。

緩衝

擁有很少的緩衝,且緩衝用於服務線程,而不是用於儲存訪問的資料。

擁有大量的緩衝結構,能夠將資料儲存至緩衝,從而提高訪問速度,降低時延。

回應程式式

需要將全部任務整合後,再進行批處理。

即時響應,對單個任務的響應速度較高。

適用情境

適用於計算密集,相似性高,且多線程並行的高輸送量運算情境。

適用於對響應速度有要求,且邏輯複雜的串列運算情境。

購買GPU執行個體後,為什麼執行nvidia-smi命令找不到GPU顯卡?

問題原因:當您執行nvidia-smi命令無法找到GPU顯卡時,通常是由於您的GPU執行個體未安裝或者未成功安裝Tesla或GRID驅動。

解決措施:請根據您所購買的GPU執行個體規格選擇對應的操作來安裝相應驅動,才能正常使用GPU執行個體的高效能特性。具體說明如下:

如何查看GPU顯卡的詳細資料?

不同作業系統的GPU執行個體,查看GPU顯卡資訊的操作有所不同,具體說明如下:

  • 針對Linux作業系統,您可以執行nvidia-smi命令查看GPU顯卡的詳細資料。

  • 針對Windows作業系統,您可以在裝置管理員 > 顯示適配器中查看GPU顯卡的詳細資料。

說明

如果您需要瞭解GPU顯卡的空閑率、使用率、溫度以及功率等資訊,可以前往CloudMonitor控制台查看。具體操作,請參見GPU監控

GPU虛擬化型執行個體需要安裝什麼驅動?

GPU虛擬化型執行個體需要安裝GRID驅動。

針對通用計算情境或圖形加速情境,您可以在建立GPU執行個體時同步載入GRID驅動,也可以在建立GPU執行個體後通過雲助手方式安裝GRID驅動,安裝方式如下:

在GPU計算型執行個體上使用OpenGL、Direct3D等工具做圖形加速時,需要安裝什麼驅動?

請根據您所使用的GPU執行個體的作業系統來安裝相應驅動。具體說明如下:

為什麼建立GPU執行個體時選擇的CUDA版本與安裝完成後查看到的CUDA版本不一致?

您執行命令nvidia-smi查詢到的CUDA版本代表您的GPU執行個體能夠支援的最高CUDA版本,並不代表您建立GPU執行個體時選擇的CUDA版本。

GPU執行個體(Windows系統)安裝GRID驅動後,通過控制台VNC遠端連線該執行個體出現黑屏怎麼辦?

  • 問題原因:當Windows作業系統的GPU執行個體安裝了GRID驅動後,虛擬機器(VM)的顯示輸出被GRID驅動接管,VNC無法再擷取到整合顯卡的畫面,因此,VNC顯示會變成黑屏狀態,屬於正常現象。

  • 解決方案:使用Workbench串連GPU執行個體。具體操作,請參見使用Workbench工具以RDP協議登入Windows執行個體

如何擷取GRID License?

請根據您使用的作業系統查看對應的擷取方式,具體說明如下:

如何升級GPU驅動(Tesla驅動或GRID驅動)?

GPU驅動(Tesla驅動或GRID驅動)不能直接升級版本,需要先卸載之前的舊版本驅動,然後重啟系統來安裝新版本驅動,具體操作,請參見升級或降級NVIDIA驅動

重要

建議您在業務低峰期升級驅動,升級前請先建立快照備份雲端硬碟資料,避免資料丟失,具體操作,請參見建立快照

如何查看GPU執行個體的資源使用量(vCPU、網路流量、頻寬以及磁碟等)?

如需查看執行個體的vCPU使用率、記憶體、系統平均負載、內網頻寬 、公網頻寬、網路連接數、磁碟使用與讀取、GPU使用率,顯存使用量、GPU功率等監控資料,請通過以下方法查詢。

  • 雲產品控制台

    • Elastic Compute Service控制台:提供vCPU使用率、網路流量、磁碟I/O以及GPU監控等指標資訊。具體操作,請參見通過ECS控制台查看監控資訊

    • CloudMonitor控制台:提供更加精細化的監控粒度,例如查看基礎監控、作業系統監控、GPU監控、網路監控、進程監控以及雲端硬碟監控等指標資訊,更多資訊,請參見主機監控

  • 費用與成本中心

    查看用量明細頁面,通過篩選以下欄位(以查看ECS執行個體的流量使用方式為例),即包括待查詢的時間周期商品名稱(雲產品名稱)、計費項目名稱計量規格以及計量粒度欄位,單擊匯出CSV,匯出執行個體的相關資源使用量資訊。具體操作,請參見賬單詳情

    用量明細-zh

    說明

    用量明細所提供的資料為資源的原始用量,與賬單明細所提供的參與計費的用量資料不一致,查詢結果僅供參考,不作為對賬依據。

如何安裝cGPU服務?

無論您是企業認證使用者還是個人實名認證使用者,推薦您通過ACK的Docker運行時環境安裝和使用cGPU服務。具體操作,請參見安裝共用GPU調度組件