全部產品
Search
文件中心

Platform For AI:製作DSW執行個體鏡像

更新時間:Oct 31, 2025

您可以將當前DSW執行個體的環境配置儲存為自訂鏡像,推送至Container RegistryACR中,以便在未來快速複用或分享。這能幫您固化代碼、依賴庫和系統配置,解決官方鏡像無法滿足特定需求(如特定CUDA或Python版本)的問題,並且該鏡像支援在PAI-DLC或PAI-EAS等其他服務中使用。

重要提醒

  • 執行個體狀態:必須在“運行中的DSW執行個體上製作鏡像。若執行個體處於“已停止”狀態,“製作鏡像”按鈕將顯示為灰色 。

  • 地區一致:DSW執行個體與Container RegistryACR執行個體必須位於同一地區。地區不一致是導致無法找到鏡像倉庫或命名空間的首要原因。

  • 鏡像大小限制:單層鏡像資料量不得超過10 GiB,否則構建會因逾時或容量不足而失敗。

  • 環境限制:DSW本身是一個容器環境,不支援在內部再安裝或使用Docker。

  • 個人版和企業版ACR區別:

    特性

    個人版ACR

    企業版ACR

    費用

    執行個體免費

    執行個體需要付費購買,詳情見企業版執行個體計費說明

    網路設定

    通過公網訪問,無需特殊網路設定。

    必須與DSW執行個體在同一個Virtual Private Cloud內。通過內網訪問,傳輸更穩定 。

    效能與穩定性

    速度受公網頻寬影響,大鏡像(接近10 GiB)推送或拉取時可能因網路波動而逾時失敗。

    速度快,穩定性高,通過VPC內網傳輸,更適合處理大鏡像和生產環境。

    地區靈活性

    一個阿里雲帳號只能在一個地區建立個人版執行個體,如果DSW執行個體在其他地區,則無法使用。

    可以在多個地區建立企業版執行個體,支援跨地區的DSW執行個體使用。

    推薦情境

    個人學習、功能測試、小鏡像的環境備份。

    團隊協作、生產環境、需要高穩定性和傳輸速度的情境、需要跨地區使用鏡像的情境。

操作步驟

步驟一:準備ACR

您可以根據業務需要選擇個人版或者企業版ACR。

步驟二:製作鏡像

在狀態為運行中的DSW執行個體右側,單擊製作鏡像,選擇個人版鏡像企業版鏡像,配置如下關鍵參數後,單擊儲存

image

參數

說明

鏡像名稱(ACR鏡像版本名稱)

用於自訂鏡像名稱展示以及ACR中的鏡像版本名稱。

ACR鏡像命名空間

選擇已建立的命名空間。

ACR鏡像倉庫

選擇已建立的鏡像倉庫。

自訂排除路徑

建立鏡像時,可以排除特定檔案或目錄,這能提高建立速度、節省儲存空間並保護敏感資訊。您可以自訂排除路徑。如果未設定,系統將使用預設排除路徑。

說明

單層鏡像儲存的資料量大小不超過10 GiB,否則將構建失敗,請排除非必要儲存的路徑。

  • 自訂排除路徑

    僅使用公用資源群組的非ecs.ebm開頭的規格支援使用者自訂排除路徑。

  • 系統預設排除路徑(無需手動設定)

    • 使用公用資源群組的非ecs.ebm開頭規格的執行個體:

      /mnt/workspace/home/admin/workspace/home/admin/logs/tmp//etc/dsw/etc/dsw-logs

    • 通用計算資源群組執行個體、使用公用資源群組的ecs.ebm開頭規格的執行個體、靈駿計算資源群組執行個體:

      /mnt/workspace/home/admin/workspace/home/admin/logs/tmp//data/dev/shm/etc/dsw/etc/dsw-logs

待鏡像製作成功後,滑鼠移至上方image,查看鏡像地址,或單擊此處,前往容器鏡像控制台查看該鏡像詳情。

image

步驟三:使用自訂鏡像

鏡像製作成功後,在建立新的DSW執行個體時,鏡像選擇自訂鏡像,即可使用製作的自訂鏡像。

image

常見問題

Q:為什麼製作DSW鏡像時會失敗或逾時?

  • 鏡像大小超限:DSW製作鏡像時,單層鏡像儲存的資料量不應超過10 GiB,否則構建會失敗。建議您嘗試縮小鏡像大小,或使用更適合處理大鏡像的企業版ACR。

  • 地區不匹配:DSW執行個體與Container RegistryACR執行個體必須位於同一地區,否則在製作鏡像時將無法找到對應的鏡像倉庫。

  • 系統硬碟空間不足:製作鏡像時,如果系統硬碟的剩餘可用空間小於需要寫入鏡像層的資料大小,會報“insufficient capacity of ephemeral storage”錯誤。

  • 網路問題:使用個人版ACR時,鏡像是通過公網推送的,較大的鏡像可能會因為網路波動或傳輸時間過長而導致逾時失敗。企業版ACR執行個體若與DSW執行個體綁定在同一個VPC內,則可以通過內網推送,速度更快更穩定。

Q:為什麼“製作鏡像”按鈕是灰色的,或者在製作時找不到我的鏡像倉庫?

  1. 執行個體狀態不正確:“製作鏡像”功能僅對處於“運行中”狀態的DSW執行個體開放。如果執行個體處於“已停止”或其他狀態,該按鈕將為灰色不可用。

  2. 前置條件未滿足或配置錯誤:

    • 您必須先在與DSW執行個體相同的地區建立好Container RegistryACR執行個體,並在其中建立了命名空間和鏡像倉庫。

    • 請務必確認DSW執行個體和ACR執行個體的地區完全一致。

Q:可以在DSW執行個體中安裝和使用Docker嗎?

不可以。DSW本身運行在一個容器環境中,因此不支援在DSW內部再次安裝和使用Docker。如果您需要使用特定的Docker鏡像環境,應在建立DSW執行個體時,選擇“自訂鏡像”,並填入您存放於ACR中的鏡像地址。

Q:如何升級DSW執行個體中的NVIDIA驅動或CUDA版本?

不要升級驅動版本。 DSW執行個體的驅動和CUDA是預裝並鎖定的,不能也不應該手動修改,否則極易導致執行個體損壞且無法恢複。正確的做法是:更換DSW鏡像。停止當前執行個體,建立一個執行個體,並選擇一個官方提供的、帶有更高版本CUDA和驅動的鏡像。

例如官方鏡像:modelscope:1.9.4-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04。其中cu118,代表CUDA版本為11.8。

Q:使用第三方或自訂鏡像建立DSW執行個體時為什麼會失敗?

  • 鏡像拉取許可權問題:若使用私人鏡像或需VPC網路訪問,請檢查DSW執行個體網路設定和ACR倉庫授權策略。日誌中的“pull access denied”或“authorization failed”錯誤,均表示許可權問題。

  • 鏡像不相容:原則上需基於標準的Linux發行版構建鏡像,強烈建議以DSW官方鏡像作為基礎鏡像來構建自訂鏡像。

  • 鏡像地址格式錯誤:請確保填寫的鏡像地址格式正確,能夠被系統正常解析。