本文為您介紹DSW的相關問題。
執行個體啟動
Q:DSW執行個體啟動失敗
排查方法:單擊DSW執行個體名稱,在事件頁簽下查看報錯資訊。

常見報錯及解決方案如下:
其他啟動失敗原因:
欠費導致建立失敗
如果您的帳號欠費,將導致建立DSW執行個體建立失敗,並且代金券不能抵扣欠費,您可登入費用與成本控制台,查看賬戶是否欠費。
Q:DSW啟動時可以開機執行Python檔案嗎?
您可以在建立DSW執行個體時,或通過變更執行個體配置的方式設定自定义启动脚本。

該功能可用於在執行個體啟動過程中定製環境或執行初始化任務。自訂指令碼的執行時間在鏡像和資源準備完成後,JupyterLab、Code Server等開發應用啟動前。
逾時時間為3分鐘:自訂指令碼會增加執行個體的啟動時間,指令碼逾時時間為3分鐘,請勿在自訂指令碼中執行鏡像下載等長耗時任務。
可查看指令碼作業記錄:執行個體啟動後可在/var/log/user-command/路徑下找到自訂指令碼運行產生的日誌。
Q:找不到DSW執行個體?
您可以在概覽頁面查看建立地不同類型的執行個體,並嘗試切換不同地區。

Q:DSW 頁面異常或無法操作怎麼辦?
如果遇到頁面白屏、Notebook 一直轉圈載入,或者 Terminal 無法輸入命令這類問題,通常與您的本地環境有關。請嘗試以下步驟:
清理瀏覽器緩衝後重試。
使用瀏覽器的 無痕/隱私模式 訪問。
更換網路環境,例如從公司內網切換至手機熱點,以排查防火牆限制。
嘗試使用 其他瀏覽器(如 Chrome、Firefox)。
Q:包含雲端硬碟系統硬碟的DSW執行個體停止、重啟、變更規格、更換鏡像是否會丟失系統硬碟中資料?
包含雲端硬碟系統硬碟的DSW執行個體類型有:公用資源群組建立的執行個體,以及選擇云盘作為系統硬碟的通用資源執行個體,其系統硬碟中的資料丟失情況如下:
停止執行個體:可能會丟失。如果雲端硬碟未擴容且執行個體停止超過15天,資料會被清空且無法恢複。如果雲端硬碟擴容過或者執行個體停止未超過15天,則資料不會丟失。
重啟執行個體:不會丟失。在執行個體停止或重啟後,所有通過
pip安裝的包、代碼檔案以及其他儲存在執行個體系統硬碟中的資料都會被保留,不會丟失。變更執行個體規格:不會丟失。調整執行個體規格(如CPU、記憶體、GPU等資源配置)不會影響執行個體的系統硬碟中資料。
更換執行個體鏡像:可能會丟失部分資料。變更鏡像不會影響掛載的資料集或OSS儲存中的資料,但系統硬碟內的內容可能會被重設。因此,您在變更執行個體鏡像時,注意儲存執行個體資料。比如可以將資料複製或移動到資料集或OSS中。詳情請參見掛載資料集/OSS/NAS/CPFS。
對於選擇临时存储作為系統硬碟的通用資源執行個體,不論其所在AI資源群組是否配有預付費雲端硬碟,其停止、重啟、變更規格或鏡像都會丟失系統硬碟中的資料。
Q:使用公用資源建立的 DSW 執行個體,超過15 天未登入被釋放,可以找回嗎?
使用公用資源建立的DSW執行個體,如果雲端硬碟系統硬碟未付費擴容,且關機後連續15天以上未啟動,其系統硬碟將被自動清空且無法恢複。
執行個體停止/刪除/釋放
Q:如何釋放DSW執行個體?
在DSW執行個體列表頁,單擊停止或刪除執行個體。

注意:如果建立DSW執行個體時有擴容過系統硬碟,無論執行個體是否處於運行狀態,系統硬碟都會持續計費。如果您想停止DSW執行個體相關的一切計費,請刪除DSW執行個體。
Q:怎麼找不到DSW執行個體?
如果找不到執行個體,您可以嘗試切換不同地區和工作空間。

Q:如何釋放免費試用抵扣包?
免費試用抵扣包無需釋放或停止。
Q:如何完全停止DSW執行個體的計費?“停止”和“刪除”操作有什麼不同?
停止執行個體:此操作釋放執行個體的計算資源(CPU/GPU),並暫停計算費用。注意:擴容的系統硬碟會繼續計費。
刪除執行個體:此操作永久刪除執行個體及其所有資源(包括系統硬碟)。所有相關計費會完全停止。
如何選擇:
停止:臨時不用,但想保留資料和環境供未來重啟。
刪除:不再需要,希望停止所有計費。操作前請備份資料。
Q:為什麼我的DSW執行個體長時間處於“停止中”或“刪除中”狀態,無法完成操作?
停止或刪除執行個體需要時間。系統需要安全地終止任務、儲存狀態和回收資源。如果執行個體長時間無響應,常見原因如下:
執行個體中有未正常結束的進程。
記憶體佔用過高,導致執行個體無法響應關機指令。
遇到這種情況,通常耐心等待一段時間後重新整理頁面,執行個體狀態會正常停止。
Q:停止或刪除DSW執行個體後,我的資料和代碼會丟失嗎?
資料是否保留取決於您的操作以及執行個體的資源群組類型。
停止執行個體:
資料保留原則因資源群組類型而異。
包含雲端硬碟系統硬碟的執行個體(大多數隨用隨付規格,選擇了云盘作為系統硬碟的通用資源執行個體):如果雲端硬碟未擴容且執行個體停止超過15天,資料會被清空且無法恢複。如果雲端硬碟擴容過或者執行個體停止未超過15天,則資料不會丟失。
使用临时存储作系統硬碟的執行個體:資料存放區在臨時儲存中。停止執行個體會刪除資料,且無法恢複。
刪除執行個體:
其系統硬碟中的所有資料都將被永久擦除,且無法恢複。因此,在刪除前務必備份所有重要資料。
Q:為什麼我正在啟動並執行DSW執行個體會自動停止?
執行個體配置了閑置自動關機策略。此策略旨在節省資源,預設對免費試用執行個體啟用。
觸發條件:執行個體的 CPU 和 GPU 使用率連續 3 小時低於設定閾值。
操作建議:
手動停止:為確保節省資源,請在不使用時手動停止執行個體。自動關機策略不保證每次都觸發。
修改策略:如需運行長時任務,請修改或禁用此策略。具體操作步驟如下:
Q:我已經將所有DSW執行個體停止或刪除了,為什麼還顯示“運行中”或收到計費通知?
檢查以下常見原因:
混淆了資源套件與執行個體。您看到的“運行中”狀態可能指資源套件(如“每月250計算時”),而非執行個體。資源套件在有效期間內始終有效,其狀態與執行個體無關。
擴容的系統硬碟仍在計費。停止執行個體僅暫停計算費用。擴容後的系統硬碟會繼續產生儲存費用。
賬單存在延遲。計費並非即時,賬單可能在您使用資源幾小時後才產生。例如,上午產生的費用,可能在下午才顯示在賬單中。
計費和賬單
Q:DSW如何收費?為什麼我的執行個體開著但沒有運行代碼,也會產生費用?
DSW支援預付費和後付費,您可以根據自己的實際需要選擇付費方式,計費詳情請參見DSW計費說明。
隨用隨付是根據您執行個體的運行時間長度進行收費,因為運行中的執行個體會持續佔用計算資源,所以即便沒有執行代碼或者開啟WebIDE,只要執行個體處於“運行中”狀態,就會產生費用。
Q:如何查看DSW賬單?
對於後付費使用者,可以進入費用與成本頁面查看賬單明細,詳情請參見查看賬單明細。
Q:為什麼我已經停止了DSW執行個體,但賬戶仍在計費?
停止執行個體後仍然計費,通常有兩個主要原因:
賬單延遲:DSW如果採用隨用隨付模式,賬單產生和扣款存在一定的延遲。您收到的計費通知,可能是針對您停止執行個體之前的實際使用量,而非停止後產生的費用。
系統硬碟擴容:如果您在建立DSW執行個體時擴容了系統硬碟,那麼即使執行個體處於“已停止”狀態,系統硬碟的儲存費用仍會持續產生。擴容後的系統硬碟不支援縮容,如果要停止計費必須刪除執行個體。請務必在刪除前備份好所有需要的資料,執行個體刪除後資料將無法恢複。
判斷系統硬碟是否擴容過可以單擊執行個體名稱進入詳情頁,查看系統硬碟容量是否超過了免費額度(公用資源群組的執行個體提供100 GiB免費額度)。

Q:如何才能徹底停止DSW執行個體的所有相關計費?
要想完全停止DSW執行個體的一切計費,最徹底的方法是刪除執行個體。請務必在刪除前備份好所有需要的資料,執行個體刪除後資料將無法恢複。

您可以切換不同的工作空間和地區,確保所有執行個體都被刪除。

Q:隨用隨付的DSW執行個體使用未滿一小時怎麼計算費用?
隨用隨付執行個體費用根據實際使用的分鐘數進行計費,具體公式為:賬單金額 = (單價 / 60)× 實際服務時間長度(分鐘)。
模型拉取
Q:拉模數型時報錯:Failed to pull image "crpi-****-vpc.cn-hangzhou.personal.cr.aliyuncs.com/apo/cat:full"
建立DSW執行個體時,如果配置的是鏡像地址,且鏡像倉庫為私人,則在輸入鏡像地址時需輸入鏡像倉庫使用者名稱和密碼。

鏡像使用
Q:製作鏡像時報錯:insufficient capacity of ephemeral storage
出錯原因:製作鏡像的大小校正邏輯是檢查系統硬碟的剩餘可用空間是否大於寫入層的大小,如果可用空間不足,就會報這個錯。
解決方案:在DSW Terminal中通過df -h查看檔案系統的磁碟空間佔用情況,並確保overlay已使用的空間不超過/dev/vda4的可用空間,如果超過,您可以通過在製作鏡像時設定自定义排除路径解決。


Q:DSW如何使用Docker鏡像?
使用Docker鏡像啟動DSW執行個體:您可以將Docker鏡像推送至阿里雲Container RegistryACR中,然後再將其添加至PAI工作空間的自訂鏡像中,即可在建立DSW執行個體時選擇對應鏡像啟動執行個體。
將Docker鏡像推送至Container RegistryACR中,請參見使用個人版執行個體推送拉取鏡像。
添加PAI自訂鏡像,請參見自訂鏡像。
想打包當前的DSW的鏡像環境,用於啟動其他執行個體或部署模型,請參見製作DSW執行個體鏡像。
在DSW的雲端IDE中安裝和使用Docker:公用資源和通用計算資源建立的執行個體不支援在DSW中安裝和使用Docker,靈駿智算資源支援。
Q:為什麼製作DSW鏡像時會失敗或逾時?
鏡像大小超限:DSW製作鏡像時,單層鏡像儲存的資料量不應超過10 GiB,否則構建會失敗。建議您嘗試縮小鏡像大小。
地區不匹配:DSW執行個體與Container RegistryACR執行個體必須位於同一地區,否則在製作鏡像時將無法找到對應的鏡像倉庫。
系統硬碟空間不足:製作鏡像時,如果系統硬碟的剩餘可用空間小於需要寫入鏡像層的資料大小,會報“insufficient capacity of ephemeral storage”錯誤。
網路問題:使用個人版ACR時,鏡像是通過公網推送的,較大的鏡像可能會因為網路波動或傳輸時間過長而導致逾時失敗。企業版ACR執行個體若與DSW執行個體綁定在同一個VPC內,則可以通過內網推送,速度更快更穩定。
Q:為什麼“製作鏡像”按鈕是灰色的,或者在製作時找不到我的鏡像倉庫?
執行個體狀態不正確:“製作鏡像”功能僅對處於“運行中”狀態的DSW執行個體開放。如果執行個體處於“已停止”或其他狀態,該按鈕將為灰色不可用。
前置條件未滿足或配置錯誤:
您必須先在與DSW執行個體相同的地區建立好Container RegistryACR執行個體,並在其中建立了命名空間和鏡像倉庫。
請務必確認DSW執行個體和ACR執行個體的地區完全一致。
Q:製作鏡像報錯:Push image registry-vpc.cn-****.aliyuncs.com/****/lm-mirrors:**** Failed: Push container failed, Container Name: dsw-notebook
在製作鏡像時,請確保單層鏡像中的資料量不超過10 GiB,否則構建會失敗。對於公用資源群組的DSW執行個體,您可以設定自訂排除路徑,以排除某些檔案或目錄,使其不被包含在最終產生的鏡像中。或者,您可以通過掛載儲存路徑(如掛載OSS路徑)來將資料存放區到已掛載的路徑,並通過該路徑進行訪問。

系統硬碟擴容
Q:DSW執行個體系統硬碟空間有多大,滿了怎麼辦?
DSW執行個體中的檔案和資料預設儲存在系統硬碟中,並且提供一定的免費額度。
查看免費額度
公用資源群組建立的執行個體免費額度為100 GiB,通用計算資源需滿足規格要求後,才會提供免費額度的系統硬碟。靈駿智算資源不提供免費雲端硬碟。具體免費系統硬碟空間大小可以查看執行個體配置頁面的系統硬碟選項。操作步驟:
單擊執行個體列表頁的執行個體名稱。
在右上方單擊变更配置,然後下拉找到系统盘。

查看系統硬碟使用量
單擊DSW執行個體名稱,在環境資訊地區可以查看系統硬碟的用量。

系統硬碟滿了如何擴容
如果系統硬碟空間使用量超過了免費額度,您可以選擇擴容系統硬碟或掛載資料集。
Q:系統硬碟支援縮容嗎?
DSW系統硬碟在擴容後無法縮容。如果您發現之前建立的DSW執行個體系統硬碟空間過大,並需要備份執行個體中的重要訊息,可以通過掛載資料集/OSS/NAS/CPFS將資料備份至OSS。隨後,您可以刪除該DSW執行個體避免持續計費,並重新建立一個新的DSW執行個體,設定適當的系統硬碟空間以滿足您的需求。
掛載配置
Q:DSW執行個體如何掛載和使用自己的檔案系統?
您可以在建立執行個體時掛載OSS/NAS/CPFS/智算CPFS,可以通過DSW Terminal進入掛載目錄查看並使用檔案。
目前DSW僅支援在建立執行個體時,掛載同地區下的檔案系統,詳情請參見建立DSW執行個體。
Q:PAI-DSW掛載資料集NAS,啟動執行個體報錯:The specified MountTarget 3b79d4a2ac-xmk97.cn-shanghai.nas.aliyuncs.com is not in VPC vpc(VPC執行個體)
產生原因:是由於在建立NAS 資料集的時候添加配置了掛載點導致的,
解決方案:需要在建立資料集的時候把掛載點置空

Q:使用ECS搭建FTP上傳下載檔案到NAS,執行掛載(mount)命令報錯mount:wrong fs type,bad option,bad superblock
現象描述

解決方案
執行
mount命令之前,先安裝nfs-utils安裝包。yum install nfs-utils
Q:如果掛載OSS資料集後,訪問掛載目錄報錯Input/output error,應如何解決?

該問題是由於未對角色授予OSS存取權限(AliyunPAIDLCAccessingOSSRole)導致,具體授權操作,請參見PAI服務帳號授權。
Q:如何在使用jindo掛載OSS資料集時降低OOM(Out of Memory)風險?
可以通過以下兩種方式解決:
方式一:使用jindo6.8.1版本,該版本最佳化了記憶體。
{ "fs.jindo.fuse.pod.image.tag":"6.8.1" }
方式二:使用ossfs。
在提交任務時,指定:
{ "mountType": "ossfs" }
通過以下配置關閉readdirplus最佳化,可以減少列舉檔案夾內容時的中繼資料快取佔用,從而最大程度的緩解OOM問題:
{ "mountType": "ossfs", "fs.ossfs.args": "-oreaddirplus=false" }
Q:成功掛載了OSS,為什麼在JupyterLab介面的左側檔案瀏覽器中看不到?
這是因為DSW的檔案瀏覽器預設顯示的是執行個體的工作目錄,其路徑通常是/mnt/workspace。而您掛載OSS時指定的掛載路徑(例如 /mnt/data)並不在預設工作目錄下,因此不會直接顯示在左側檔案清單中。
解決方案:
通過代碼訪問:您的檔案實際上已經成功掛載。在代碼中,您需要使用完整的掛載路徑來訪問它們,例如
open('/mnt/data/my_file.csv')。更改掛載點:為了在UI中方便地看到檔案,您可以在配置掛載時,將掛載路徑設定為工作目錄下的一個子目錄,例如
/mnt/workspace/my_oss_data。這樣,掛載完成後,您就可以在檔案瀏覽器的my_oss_data檔案夾中看到您的OSS檔案了。通過終端訪問:您可以在DSW的Terminal中使用
cd /mnt/data命令進入掛載目錄,然後通過ls等命令查看和操作檔案。
Q:使用掛載的OSS時,程式報錯“Transport endpoint is not connected”或“輸入/輸出錯誤”?
這個錯誤表明DSW執行個體與OSS的掛載串連已斷開。可能的原因及排查方法如下:
RAM角色許可權問題:請檢查您為DSW執行個體配置的RAM角色是否被授予了訪問OSS的許可權(例如
AliyunPAIDLCAccessingOSSRole)。許可權不足是導致無法讀取OSS的常見原因。掛載服務資源不足:當進行高強度的隨機讀寫或大量小檔案操作時,負責掛載的
ossfs或JindoFuse進程可能會因記憶體不足(OOM)而崩潰 。您可以在掛載配置的“進階配置”中,可以關閉中繼資料Cache,或增加記憶體配置。詳情請參見JindoFuse。恢複串連:
對於啟動時掛載,最簡單的恢複方法是重啟DSW執行個體,系統會自動重新執行掛載。
您也可以使用PAI SDK執行動態掛載命令,在不重啟執行個體的情況下重新掛載路徑。
Q:DSW支援掛載哪些類型的資料?可以直接掛載阿里雲盤或MaxCompute表嗎?
DSW支援通過建立資料集或直接掛載路徑的方式使用OSS、NAS和CPFS這幾種雲端儲存體服務
不支援阿里雲盤:目前DSW不直接支援掛載個人阿里雲盤。需要處理的資料建議存放在OSS中。
不支援掛載MaxCompute表:MaxCompute(原ODPS)的表資料,不能像檔案系統一樣直接“掛載”到DSW的目錄中。您可以通過PAI提供的SDK或API在DSW代碼中進行讀寫,詳情請參見使用PyODPS讀寫MaxCompute表。
Q:DSW執行個體關機或刪除後,代碼和資料會丟失嗎?如何?資料持久化和遷移?
DSW執行個體的系統硬碟是臨時儲存。對於公用資源群組,執行個體停機超過15天資料會被清空;對於專有資源群組,執行個體停止或刪除後,系統硬碟資料也會被清空。
為了實現資料和代碼的持久化儲存,以及在不同執行個體間遷移,必須使用外部掛載儲存 。
持久化方案:將您的重要資料、代碼、模型等全部儲存在通過掛載的OSS或NAS路徑下。這樣,即使DSW執行個體被刪除,您的所有資產依然安全地存放在您自己的OSS或NAS中。
遷移方案:當您需要將資料從一個DSW執行個體遷移到另一個時,只需在新執行個體中掛載包含這些資料的同一個OSS或NAS路徑即可,這是最便捷的資料移轉方式。
Q:成功掛載了OSS,在工作目錄中的檔案為什麼在OSS中看不到?
掛載OSS時指定的掛載路徑預設為 /mnt/data,而DSW預設的工作目錄為/mnt/workspace,因此無法在OSS中看到工作目錄下的檔案。您可以使用如下複製命令將工作目錄下的檔案拷貝至/mnt/data下,即可在OSS中看到相應檔案。
cp -r /mnt/workspace/. /mnt/data/資料讀取、上傳和下載
Q:如何使用DSW讀取OSS資料?
您可以使用Python SDK或API讀取OSS資料,詳情請參見讀寫Object Storage Service資料。
Q:如何上傳下載檔案夾?
目前DSW不支援直接上傳和下載檔案夾,但您可以通過打包為壓縮檔的方式實現檔案夾的上傳和下載。DSW Terminal提供了一個Linux環境,可以使用標準的Linux命令列工具,如tar、gzip、unzip等,來解壓縮檔案。以tar為例使用樣本如下。
使用
tar --version查看tar是否安裝,如果沒有,則可參考如下命令進行安裝。# 對於基於Debian的系統(例如 Ubuntu)的安裝命令 sudo apt install tar # 基於Red Hat的系統(例如CentOS、Fedora)的安裝命令 sudo yum install tar解壓縮檔案夾。
# 壓縮檔夾, /path/to/diretory為要壓縮的檔案夾 tar -cvf archive_name.tar /path/to/directory # 解壓檔案夾 tar -xvf archive_name.tar
Q:兩個DSW執行個體之間怎麼互傳、分享資料?
您可以採用如下兩種方式:
掛載資料集/OSS/NAS/CPFS:兩個DSW執行個體都掛載相同的資料集或OSS路徑,然後將資料存放區在該資料集或儲存路徑下,從而實現資料分享。
上傳與下載檔案:從源DSW執行個體中下載需要分享的資料,然後再上傳至另一個DSW執行個體中。
Q:點擊“Download”後沒有反應或下載失敗怎麼辦?
這通常由網路擁堵或瀏覽器問題引起。請嘗試以下步驟:
耐心等待片刻,大檔案下載需要更長的回應時間。
更換瀏覽器或使用瀏覽器的無痕模式重試。
對於較大的檔案(如超過200 MB)或網路不穩定的情況,建議通過掛載OSS的方式下載。
Q:提示“檔案中轉站”空間不足怎麼辦?
檔案中轉站的總容量為10 GB。您需要進入中轉站管理頁面,清理中轉站檔案釋放空間。如果頁面沒有及時重新整理,請嘗試重新整理瀏覽器。
Q:為什麼上傳時總是跳轉到“檔案中轉站”?
這是正常現象。為保證上傳穩定性和速度,所有大於10 MB的檔案都會自動通過檔案中轉站進行傳輸,並在完成後儲存到您的執行個體中。
Q:如何將本地的大檔案(例如超過5 GB的模型)或大量資料上傳到DSW並使用?
DSW執行個體的系統硬碟空間有限且為臨時儲存,不建議直接上傳大檔案或大量資料,您可以先將資料上傳到阿里雲Object Storage Service,然後將其掛載到DSW執行個體中使用。 詳情請參見掛載資料集/OSS/NAS/CPFS。
遠端連線執行個體
Q:ProxyClient串連DSW執行個體時斷連報錯:client_loop: send disconnect: Broken pipe
在使用其通過SSH方式串連DSW執行個體時,若長時間不進行操作會觸發斷連,系統可能會提示:

如果要從根本上解決此問題,推薦您使用穩定性更高的遠端連線:SSH直連方式串連DSW執行個體。
Q:使用VSCode遠端連線了執行個體,開啟本地檔案夾失敗
一般是由於Vscode用戶端的影響產生的問題,建議將本地檔案上傳至雲端的DSW中,具體操作可參考上傳與下載檔案。
Q:SSH直連配置失敗,報錯資訊如下: Failed to update private zone items: Failed to add zone?
報錯原因是沒有開啟內網DNS解析服務,您可以參考開通內網DNS解析開通該服務。
網路問題
Q:網路下載速度過慢如何解決?
由於DSW、DLC執行個體預設使用共用網關,受頻寬節流設定,下載大型檔案時網速可能無法滿足需求。因此,當您想要提升網路下載速度時,可參考如下內容:
如果下載的是國內資源:可以為執行個體所在Virtual Private Cloud建立公網NAT Gateway、綁定彈性IP(EIP)並配置SNAT,詳細操作請參見通過專有網關提升公網訪問速率。
注意當使用該方法時請確認工作空間是否開啟了访问公网限速開關,詳細操作請參見管理工作空間 > 通用配置。

如果下載的是海外資源:您可以使用Global AccelerationGA拉取海外模型或容器鏡像。
此外,您還可以先本地下載資源檔,然後直接上傳至DSW執行個體。或者先將其上傳至Object Storage Service,然後再掛載到DSW執行個體中。
Q:DSW執行個體是否有公網IP?
DSW執行個體預設情況下不分配公網IP。如果您需要訪問外網或讓外部存取您的DSW執行個體,建議您配置NAT Gateway或使用Elastic IP Address(EIP),詳情請參見網路設定。
Q:DSW執行個體同NAT Gateway暴露公網訪問時,公網連接埠可以重複嗎?
當使用DSW自訂服務對外提供介面時,若多個服務配置了相同的NAT Gateway,則所有通過該NAT Gateway進行公網訪問的自訂服務連接埠不得重複,包括不同DSW執行個體中的自訂服務。
Q:DSW執行個體為什麼無法訪問公網?
DSW執行個體預設可以使用公有网关訪問公網。如果您無法訪問公網請確認,在執行個體的配置頁面,公网访问网关是否選擇了专有网关。如果選擇了專有網關,請必須配置Elastic IP Address和SNAT條目,詳情見通過專有網關提升公網訪問速率。否則,請選用公有網關。

第三方庫安裝
Q:如何在DSW中使用第三方庫
DSW支援安裝第三庫,詳情請參見管理第三方庫。
Q:DSW執行個體關機(停止)後,我用pip安裝的包和寫的代碼會丟失嗎?
如果使用了雲端硬碟作為系統硬碟則不會丟失。 執行個體的磁碟資料(包括/mnt/workspace和/root下的環境)都會被保留。下次啟動執行個體時,所有環境和檔案都還在。只有刪除執行個體才會徹底清空所有資料。
Q:為什麼安裝的第三方包沒有生效?
通過pip命令安裝第三方包後,使用import命令匯入時,如果出現無法尋找到該包的問題,則先嘗試重啟服務或Kernel。如果依然報錯,則確認當前使用的環境。安裝第三方包時,DSW預設安裝到Python 3環境。如果需要安裝到其他環境,則必須先手動切換環境再進行安裝,樣本如下。
安裝到Python 2環境。
source activate python2
pip install --user xxx
安裝到TensorFlow 2.0環境。
source activate tf2
pip install --user xxx其中xxx需要替換為待安裝的第三方包名稱。
Q:在DSW裡用 pip install 安裝一個包失敗了,報依賴衝突或版本錯誤,該怎麼辦?
通常由環境不相容導致。請按以下順序排查解決:
首選方案:更換鏡像。 停止當前執行個體,建立一個DSW執行個體,選擇一個不同的官方鏡像。例如,如果當前PyTorch 2.1鏡像不行,可以嘗試PyTorch 2.3的鏡像,或者嘗試
modelscope系列鏡像,該系列鏡像通常有更好的相容性。指定版本安裝。 查閱該包的官方文檔,找到一個支援您當前DSW環境(Python/CUDA版本)的包版本,然後執行
pip install package_name==x.y.z。更換下載源。 嘗試使用清華源等國內鏡像:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <yourLibraryName>。
Q:在DSW的Terminal裡已裝好了庫,為什麼在Jupyter Notebook裡import 還是找不到?
可能是因為Terminal和Jupyter使用了兩個不同的Python環境。您可以通過which python命令確認當前是哪個Python環境,或者在Notebook中安裝所需的庫,例如:

Q:代碼報錯說CUDA驅動版本太低,需要手動在DSW裡升級NVIDIA驅動嗎?
不要升級驅動版本。 DSW執行個體的驅動和CUDA是預裝並鎖定的,不能也不應該手動修改,否則極易導致執行個體損壞且無法恢複。正確的做法是:更換DSW鏡像。停止當前執行個體,建立一個執行個體,並選擇一個官方提供的、帶有更高版本CUDA和驅動的鏡像。
例如官方鏡像:modelscope:1.9.4-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04。其中cu118,代表CUDA版本為11.8。
Q:想在DSW裡使用Docker來部署我的應用程式,可以嗎?
在靈駿資源中需要使用Docker可以提工單添加白名單。 非靈駿資源的DSW執行個體,目前不支援在執行個體容器內再次運行Docker。
Q:DSW執行個體裡沒有unzip或7z命令,怎麼解壓檔案?
您可以通過apt-get命令來安裝。
安裝
unzip:在Terminal中運行apt-get update && apt-get install -y unzip,然後使用unzip your_file.zip。安裝
p7zip(用於7z):在Terminal中運行apt-get update && apt-get install -y p7zip-full,然後使用7z x your_file.7z。
Q:安裝三方包時一直卡住或逾時,是怎麼回事?
安裝第三方庫時出現卡住、逾時或速度極慢的情況,通常是網路問題導致。請按以下步驟排查和解決:
第一步:確認網路連通性
在終端執行ping www.aliyun.com命令,測試能否訪問外網。如果網路不通可以進行第二步檢查網路設定。
第二步:檢查網關配置
在執行個體配置頁查看公网访问网关的類型:
公有網關:DSW預設使用公有网关訪問外網。您可以在DSW執行個體配置頁面確認網關類型。使用公有網關時頻寬受限,下載大型檔案時網速可能無法滿足需求,因此此時您可以選擇使用專有網關。
專有網關:專有網關提供了更高的網路訪問速度,在選擇了專有網關後必須在Virtual Private Cloud中建立公網NAT Gateway、綁定彈性IP(EIP)並配置SNAT,否則將無法訪問公網,詳情請參見通過專有網關提升公網訪問速率。
第三步:嘗試更換pip下載源
DSW預設使用阿里雲鏡像源,但在高峰期或網路波動時可能出現問題。建議嘗試切換到其他國內鏡像源:
# 使用清華源安裝(推薦)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn <yourLibraryName>
# 使用中科大源安裝
pip install -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host pypi.mirrors.ustc.edu.cn <yourLibraryName>
# 使用豆瓣源安裝
pip install -i https://pypi.doubanio.com/simple --trusted-host pypi.doubanio.com <yourLibraryName>也可以永久更改預設pip源請參見查看或更改pip源。
第四步:使用離線安裝
如果網路實在不通或非常不穩定,可以採用離線安裝方式:
在本地電腦(網路良好)下載
.whl格式的安裝包:# 在本地電腦執行 pip download <yourLibraryName> -d ./packages將下載的
.whl檔案上傳到DSW執行個體,檔案上傳請參見上傳與下載檔案。在DSW中進行離線安裝:
pip install /path/to/your-package.whl
Q:在DSW的WebIDE裡如何擷取root許可權?
DSW的大部分官方鏡像預設是以root使用者身份啟動並執行,開啟Terminal時看到命令提示字元是root@...就說明已經是root了。pip安裝時出現的“不建議以root使用者運行”的警告資訊可以安全地忽略。如果您的鏡像不是root登入,這是鏡像本身的設定,您需要更換一個支援root的鏡像。
Q:在DSW中如何啟動xserver?
DSW不支援啟動xserver。
模型部署
Q:如何部署DSW產生的模型?
使用EAS模型部署服務
在完成模型建模後,您可以使用PAI-EAS將模型部署為線上服務,詳情請參見將模型部署為線上服務。
下載模型到本地部署
您可以通過按右鍵DSW產生的模型將其下載至本地。
執行個體運行
Q:運行機器學習代碼時,為什麼頁面放置一段時間後提示重新登入?
為安全考慮,DSW登入Session的有效期間為3個小時,到期後需要重新登入,但是不會影響任務的執行。如果需要長時間運行任務,建議在DSW Terminal,使用nohup命令後台執行任務。
Q:關閉瀏覽器或電腦關機後,DSW 中啟動並執行訓練任務還會繼續嗎?
會繼續。DSW 執行個體運行在雲端,關閉本地裝置不影響其運行狀態。但請注意,部分執行個體(尤其是免費試用執行個體)可能配置了 閑置自動關機策略。如果執行個體的 CPU、GPU 等資源在一段時間內持續低於某個閾值,可能會被系統判定為閑置並自動停止,從而中斷您的任務。
Q:為什麼DSW無法啟動Docker?
因為DSW本身運行在容器中,所以DSW不支援安裝Docker。對應的CUDA版本是底層的虛擬機器預裝好的,無法變更,您可以使用nvidia-smi查看對應的CUDA版本。
Q:為什麼在Terminal中沒有tab鍵自動補全等bash功能?
因為部分鏡像有使用限制,您需要手動在Terminal中輸入bash並按斷行符號鍵,才可以啟動bash相關功能。
Q:如果您在DSW中進行AI開發時發現DSW執行個體規格不滿足要求如何解決?
您可以按照以下操作步驟更新DSW執行個體規格:
在DSW執行個體列表中,單擊執行個體名稱,進入執行個體詳情頁面。
在实例配置頁簽中,單擊变更配置。
在变更实例配置面板中,更新執行個體規格。
說明在更新DSW執行個體規格時,如果執行個體正在運行中,更新操作會立即重啟執行個體。請確保您已經儲存了執行個體中的內容。
Q:我的記憶體使用量率較高,怎麼樣進行釋放?
如果您的記憶體使用量率過高,影響了正常使用,您可以通過兩種方式來解決。
如果因記憶體佔用過高,您已無法通過命令列進行互動,請單擊右上方的停止实例;或返回到DSW控制台,單擊執行個體所在行右側的停止按鍵。等到執行個體停止後再開啟執行個體。
如果在執行個體中可以通過命令列進行互動,您可以在執行個體的Terminal中輸入
top命令,查看當前所有進程的記憶體佔用資訊。%MEM表示佔用記憶體百分比,PID表示進程ID。
如果您想要結束佔用記憶體較高的進程,請在命令列中輸入:
kill PID您需要將PID替換成您想要結束進程的PID。運行後可看到記憶體使用量率降低。

Q:運行時報錯:RuntimeError: CUDA error: too many resources requested for launch
出錯原因:當您遇到該錯誤,表明CUDA核心請求的資源超過了可用資源,此錯誤通常與GPU的硬體限制有關。
解決方案:您可以嘗試重啟執行個體,重新運行程式,如果還是不行,您就需要選擇更高規格的GPU執行個體。
Q:DSW記憶體不足時能否建立swap空間使用虛擬記憶體?
DSW本身是容器,不支援建立或管理swap空間。
原因如下:
許可權限制:容器的核心許可權受限,無法掛載 Swap 檔案。即使在容器內Root,也無法繞過宿主機的資源策略。
平台策略:平台統一調度和限制資源,以確保多租戶環境的穩定和安全。
建議:若記憶體不足,請最佳化代碼或升級執行個體規格。






