このトピックでは、DSW に関するよくある質問にお答えします。
インスタンスの起動
Q:DSW インスタンスの起動に失敗するのはなぜですか?
トラブルシューティング:DSW インスタンス名をクリックし、Events タブでエラーメッセージを確認します。

一般的なエラーとその解決策は次のとおりです:
その他の起動失敗の原因:
支払い遅延による作成失敗
アカウントに支払い遅延がある場合、DSW インスタンスは作成できません。バウチャーは支払い遅延額の支払いには使用できません。ユーザーセンターにログインして、支払い遅延を確認してください。
Q:リソースの在庫またはクォータが不足していると表示された場合はどうすればよいですか?
一般的なエラー:
"Your requested resource type [ecs.******] is not enough currently" (リソースの在庫不足)。
"Your resource usage has exceeded the default limitation" (リージョンごとに 2 GPU の制限を超過)。
"The cluster resources are fully utilized" (コンピューティングリソースが完全に使用されている)。
原因分析:
パブリックリソースの在庫不足
パブリックリソースは複数のユーザーで共有されており、ピーク時には不足する可能性があります。
ハイエンド GPU などの特定の GPU タイプは、在庫切れになりやすいです。
各アカウントは、リージョンごとに 2 GPU に制限されています。
専用リソースのクォータ不足
専用リソースのクォータを購入しましたが、使い切ってしまいました。
クォータが適切に割り当てられておらず、特定のワークスペースのクォータが不足しています。
解決策:
インスタンスタイプを変更する:選択した GPU タイプが在庫切れの場合は、別の GPU タイプを試してください。
別のリージョンに切り替える:PAI コンソール左上のリージョンを切り替えて、そこでインスタンスを作成してみてください。
GPU クォータを増やす:2 つ以上の GPU を持つパブリックリソースを使用するには、チケットを送信してください。
専用リソースを購入する:安定したリソース供給が必要な場合は、専用リソースのクォータを購入してください。詳細については、「汎用コンピューティングリソースの購入」および「リソースクォータの管理」をご参照ください。
Q:DSW インスタンスの起動時に Python ファイルを実行できますか?
DSW インスタンスの作成時またはインスタンス設定の変更時に、Custom Startup Scriptを設定できます。

この機能により、インスタンス起動時に環境をカスタマイズしたり、初期化タスクを実行したりできます。カスタムスクリプトは、イメージとリソースの準備が完了した後、JupyterLab や Code Server などの開発アプリケーションが起動する前に実行されます。
タイムアウト時間は 3 分です。カスタムスクリプトはインスタンスの起動時間を増加させ、3 分後にタイムアウトします。イメージのダウンロードなど、時間のかかるタスクをカスタムスクリプトで実行しないでください。
スクリプトの操作ログを表示できます。インスタンス起動後、カスタムスクリプトによって生成された操作ログは `/var/log/user-command/` パスにあります。
Q:DSW インスタンスが見つかりません。どうすればよいですか?
概要ページで、さまざまなタイプのインスタンスを表示し、異なるリージョンに切り替えてみてください。

Q:DSW ページが異常または無応答の場合はどうすればよいですか?
空白のページ、常に読み込み中の Notebook、コマンドを受け付けないターミナルなどの問題は、通常、オンプレミス環境に関連しています。次の手順を試してください:
ブラウザのキャッシュをクリアして再試行してください。
ブラウザのシークレットモードまたはプライベートモードを使用してページにアクセスしてください。
会社の内部ネットワークからモバイルホットスポットに切り替えるなど、ネットワーク環境を変更して、ファイアウォールの制限を確認してください。
Chrome や Firefox など、別のブラウザを使用してみてください。
Q:クラウドディスクを持つ DSW インスタンスのシステムディスク上のデータは、インスタンスの停止、再起動、設定変更、またはイメージ変更を行うと失われますか?
DSW インスタンスのシステムディスクは、パブリックリソースグループ内のインスタンスおよび、システムディスクとしてDisk を選択した汎用コンピューティングリソースインスタンスの場合、クラウドディスクです。システムディスク上のデータ損失については、以下のとおりです:
インスタンスの停止:データが失われる可能性があります。クラウドディスクが拡張されておらず、インスタンスが 15 日以上停止したままである場合、データはクリアされ、回復できません。クラウドディスクが拡張されているか、インスタンスが 15 日未満停止している場合、データは失われません。
インスタンスの再起動:データは失われません。インスタンスを停止または再起動した後、
pipを使用してインストールされたすべてのパッケージ、コードファイル、およびインスタンスのシステムディスクに保存されているその他のデータは保持されます。インスタンスタイプの変更:データは失われません。CPU、メモリ、GPU リソースなどのインスタンスタイプを調整しても、インスタンスのシステムディスク上のデータには影響しません。
インスタンスイメージの変更:一部のデータが失われる可能性があります。イメージを変更しても、マウントされたデータセットや OSS 内のデータには影響しませんが、システムディスク上のコンテンツはリセットされる可能性があります。したがって、インスタンスイメージを変更する前に、インスタンスデータを保存してください。たとえば、データをデータセットや OSS にコピーまたは移動できます。詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。
システムディスクとしてTemporary Storage を使用する汎用コンピューティングリソースインスタンスの場合、AI リソースグループがサブスクリプションのクラウドディスクで構成されていても、インスタンスが停止、再起動、またはその設定やイメージが変更されると、システムディスク上のデータは失われます。
Q:15 日以上非アクティブだったためにリリースされたパブリックリソースから作成された DSW インスタンスを取得できますか?
パブリックリソースから作成された DSW インスタンスの場合、システムディスクが有料で拡張されておらず、インスタンスが 15 日以上連続して停止していると、そのシステムディスクは自動的にクリアされます。データは回復できません。
インスタンスの停止、削除、またはリリース
Q:DSW インスタンスをリリースするにはどうすればよいですか?
DSW インスタンスリストページで、対象インスタンスの [停止] または [削除] をクリックします。

注:DSW インスタンスを作成する際にシステムディスクを拡張した場合、インスタンスの状態に関係なくシステムディスクに対して課金されます。DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。
Q:DSW インスタンスが見つからないのはなぜですか?
インスタンスが見つからない場合は、異なるリージョンやワークスペースに切り替えてみてください。

Q:無料トライアルのリソースプランをリリースするにはどうすればよいですか?
無料トライアルのリソースプランをリリースまたは停止する必要はありません。
Q:DSW インスタンスの課金を完全に停止するにはどうすればよいですか?インスタンスの「停止」と「削除」の違いは何ですか?
インスタンスの停止:この操作により、インスタンスのコンピューティングリソース (CPU/GPU) が解放され、それらの課金が一時停止されます。拡張されたシステムディスクについては引き続き課金されることに注意してください。
インスタンスの削除:この操作により、インスタンスとそのすべてのリソース (システムディスクを含む) が完全に削除されます。関連するすべての課金が停止します。
選択方法:
停止:一時的にインスタンスは不要だが、将来の再起動のためにデータと環境を保持したい場合に使用します。
削除:インスタンスが不要になり、すべての課金を停止したい場合に使用します。この操作を実行する前に、データをバックアップしてください。
Q:DSW インスタンスが「停止中」または「削除中」の状態で長時間スタックするのはなぜですか?
インスタンスの停止または削除には時間がかかります。システムはタスクを安全に終了し、状態を保存し、リソースを回収する必要があります。インスタンスが長時間応答しない場合、一般的な原因は次のとおりです:
インスタンスに正常に終了していないプロセスがある。
メモリ使用量が高すぎて、インスタンスがシャットダウンコマンドに応答できない。
この場合、しばらく待ってからページを更新してください。インスタンスの状態が「停止」に変わるはずです。
Q:DSW インスタンスを停止または削除した後、データとコードは失われますか?
データが保持されるかどうかは、操作とインスタンスのリソースグループタイプによって異なります。
インスタンスの停止:
データ保持ポリシーはリソースグループタイプによって異なります。
システムディスクとしてDiskを使用するほとんどの従量課金インスタンスでは、クラウドディスクが拡張されておらず、インスタンスが 15 日を超えて停止したままである場合、データは消去され、回復できなくなります。クラウドディスクが拡張されているか、インスタンスの停止期間が 15 日未満である場合、データは失われません。
システムディスクとしてTemporary Storage を使用するインスタンスでは、インスタンスが停止するとデータは削除され、回復できません。
インスタンスの削除:
システムディスク上のすべてのデータは完全に消去され、回復できません。したがって、インスタンスを削除する前に、すべての重要なデータをバックアップしてください。
Q:実行中の DSW インスタンスが自動的に停止するのはなぜですか?
インスタンスにはアイドルシャットダウンポリシーが設定されています。このポリシーはリソースを節約するために設計されており、無料トライアルインスタンスではデフォルトで有効になっています。
トリガー条件:インスタンスの CPU および GPU 使用率が、3 時間の期間、設定されたしきい値を継続して下回る。
推奨されるアクション:
手動停止:リソースを節約するために、使用していないときはインスタンスを手動で停止してください。アイドルシャットダウンポリシーが毎回トリガーされるとは限りません。
ポリシーの変更:長期間のタスクを実行するには、このポリシーを変更または無効にすることができます。手順は次のとおりです:
Q:すべての DSW インスタンスを停止または削除したのに、なぜ「実行中」と表示されたり、課金通知が届いたりするのですか?
一般的な原因は次のとおりです:
リソースプランとインスタンスを混同している可能性があります。表示されている「実行中」のステータスは、インスタンスではなくリソースプラン (例:「月あたり 250 課金時間」) を指している可能性があります。リソースプランは有効期間内は常に有効であり、そのステータスはインスタンスのステータスとは無関係です。
拡張されたシステムディスクがまだ課金されています。インスタンスを停止すると、コンピューティングリソースの課金は一時停止されますが、拡張されたシステムディスクは引き続きストレージ料金が発生します。
課金に遅延があります。課金はリアルタイムではなく、リソースを使用してから数時間後に請求書が生成される場合があります。たとえば、午前中に発生した料金が午後に請求書に表示されることがあります。
課金と請求書
Q:DSW はどのように課金されますか?インスタンスはオンになっているだけでコードを実行していないのに、なぜ課金されるのですか?
DSW はサブスクリプションと従量課金の課金方法をサポートしています。必要に応じて課金方法を選択できます。課金の詳細については、「DSW の課金」をご参照ください。
従量課金の場合、インスタンスの実行時間に基づいて課金されます。実行中のインスタンスは継続的にコンピューティングリソースを占有するため、コードが実行されていなくても、または WebIDE が開いていなくても、インスタンスが実行中状態である限り課金されます。
Q:DSW の請求書を表示するにはどうすればよいですか?
従量課金ユーザーの場合、[費用とコスト] ページに移動して課金の詳細を表示できます。詳細については、「課金の詳細の表示」をご参照ください。
Q:DSW インスタンスを停止した後も課金されるのはなぜですか?
インスタンスを停止した後に課金される理由は、通常 2 つあります:
課金の遅延:従量課金の場合、請求書の生成と引き落としに遅延があります。受け取る課金通知は、インスタンスを停止する前の実際の使用量に対するものであり、停止後に発生した料金に対するものではない可能性があります。
システムディスクの拡張:DSW インスタンスを作成する際にシステムディスクを拡張した場合、インスタンスが停止状態であってもシステムディスクのストレージ料金は継続して発生します。拡張されたシステムディスクはスケールインできません。課金を停止するには、インスタンスを削除する必要があります。インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。インスタンスが削除されると、データは回復できません。
システムディスクが拡張されているかどうかを判断するには、インスタンス名をクリックして詳細ページに移動し、システムディスク容量が無料クォータを超えているかどうかを確認します。パブリックリソースグループのインスタンスには、100 GiB の無料クォータがあります。

Q:DSW インスタンスに関連するすべての課金を完全に停止するにはどうすればよいですか?
DSW インスタンスのすべての課金を停止する最も確実な方法は、インスタンスを削除することです。インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。インスタンスが削除されると、データは回復できません。

異なるワークスペースやリージョンに切り替えて、すべてのインスタンスが削除されていることを確認できます。

Q:1 時間未満使用した従量課金 DSW インスタンスの料金はどのように計算されますか?
従量課金インスタンスの料金は、実際に使用した分数に基づいて計算されます。数式は次のとおりです:請求額 = (単価 / 60) × 実際のサービス利用時間 (分)。
モデルのプル
Q:モデルをプルする際に「Failed to pull image 'crpi-****-vpc.cn-hangzhou.personal.cr.aliyuncs.com/apo/cat:full'」というエラーが表示されるのはなぜですか?
DSW インスタンスを作成する際に、レジストリアドレスを設定し、イメージリポジトリが非公開である場合、イメージリポジトリのユーザー名とパスワードを入力する必要があります。

イメージの使用
Q:イメージ作成時に「insufficient capacity of ephemeral storage」というエラーが表示されるのはなぜですか?
原因:イメージを作成する際、システムはシステムディスクの残りの空き領域が書き込むレイヤーのサイズより大きいかどうかを確認します。空き領域が不足している場合、このエラーが報告されます。
解決策:DSW ターミナルで df -h を実行してファイルシステムのディスク領域使用量を確認し、オーバーレイが使用する領域が /dev/vda4 の利用可能な領域を超えていないことを確認します。利用可能な領域を超えている場合は、イメージ作成時にCustom Excluded Path を設定することで問題を解決できます。


Q:DSW で Docker イメージを使用するにはどうすればよいですか?
Docker イメージを使用して DSW インスタンスを起動する:Docker イメージを Alibaba Cloud Container Registry (ACR) にプッシュし、それを PAI ワークスペースのカスタムイメージに追加できます。その後、このイメージを選択して DSW インスタンスを起動できます。
Docker イメージを ACR にプッシュするには、「ACR Personal Edition インスタンスを使用してイメージをプッシュおよびプルする」をご参照ください。
PAI カスタムイメージを追加するには、「カスタムイメージ」をご参照ください。
現在の DSW イメージ環境をパッケージ化して他のインスタンスを起動したり、モデルをデプロイしたりするには、「DSW インスタンスイメージの作成」をご参照ください。
DSW クラウドベース IDE に Docker をインストールして使用する:パブリックリソースおよび汎用コンピューティングリソースから作成されたインスタンスは、DSW 内での Docker のインストールと使用をサポートしていません。ただし、Lingjun リソースはこれをサポートしています。
Q:DSW イメージの作成が失敗したり、タイムアウトしたりするのはなぜですか?
イメージサイズが制限を超えている:DSW イメージを作成する際、単一のイメージレイヤーのデータ量は 10 GiB を超えることはできません。超えると、ビルドは失敗します。イメージサイズを小さくしてみてください。
リージョンの不一致:DSW インスタンスと ACR インスタンスは同じリージョンにある必要があります。そうでない場合、イメージ作成時に対応するイメージリポジトリが見つかりません。
システムディスク容量の不足:イメージを作成する際、システムディスクの残りの空き領域がイメージレイヤーに書き込むデータサイズより小さい場合、「insufficient capacity of ephemeral storage」エラーが報告されます。
ネットワークの問題:ACR Personal Edition を使用する場合、イメージはパブリックネットワーク経由でプッシュされます。大きなイメージは、ネットワークの変動や長い転送時間のために失敗する可能性があります。ACR Enterprise Edition インスタンスが DSW インスタンスと同じ VPC にバインドされている場合、イメージは内部ネットワーク経由でプッシュでき、より高速で安定しています。
Q:「イメージの作成」ボタンがグレーアウトしている、またはイメージ作成時にイメージリポジトリが見つからないのはなぜですか?
インスタンスの状態が正しくない:「イメージの作成」機能は、実行中の DSW インスタンスでのみ利用可能です。インスタンスが停止中または他の状態の場合、ボタンはグレーアウトして利用できません。
前提条件が満たされていない、または設定エラー:
まず、DSW インスタンスと同じリージョンに ACR インスタンスを作成し、その中に名前空間とイメージリポジトリを作成する必要があります。
DSW インスタンスと ACR インスタンスが同じリージョンにあることを確認してください。
Q:イメージ作成時に「Push image registry-vpc.cn-****.aliyuncs.com/****/lm-mirrors:**** Failed: Push container failed, Container Name: dsw-notebook」というエラーが表示されるのはなぜですか?
イメージを作成する際、単一のイメージレイヤーのデータ量が 10 GiB を超えないようにしてください。超えると、ビルドは失敗します。パブリックリソースグループの DSW インスタンスの場合、カスタム除外パスを設定して、特定のファイルやディレクトリが最終的に生成されるイメージに含まれないようにすることができます。または、OSS パスなどのストレージパスをマウントして、マウントされたパスにデータを保存し、そのパス経由でアクセスすることもできます。

システムディスクの拡張
Q:DSW インスタンスのシステムディスクはどのくらいの大きさですか?また、いっぱいになった場合はどうすればよいですか?
DSW インスタンス内のファイルとデータはデフォルトでシステムディスクに保存され、一定量の無料クォータが提供されます。
無料クォータの表示
パブリックリソースグループで作成されたインスタンスには、100 GiB の無料クォータがあります。汎用コンピューティングリソースは、仕様要件を満たす場合にのみ無料のシステムディスクを提供します。Lingjun リソースは無料のクラウドディスクを提供しません。インスタンス設定ページのシステムディスクオプションで、具体的な無料システムディスク容量を確認できます。手順:
インスタンスリストページで、インスタンス名をクリックします。
右上隅で Change Settings をクリックし、System Disk までスクロールします。

システムディスク使用量の表示
DSW インスタンス名をクリックします。[環境コンテキスト] セクションで、システムディスクの使用量を確認できます。

システムディスクがいっぱいになったときの拡張
システムディスクの容量使用量が無料クォータを超えた場合、システムディスクを拡張するか、データセットをマウントすることを選択できます。
Q:システムディスクはスケールインできますか?
DSW システムディスクは、拡張後にスケールインすることはできません。以前に作成した DSW インスタンスのシステムディスク容量が大きすぎると感じ、インスタンス内の重要な情報をバックアップする必要がある場合は、データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムをマウントして、データを OSS にバックアップできます。その後、DSW インスタンスを削除して継続的な課金を避け、ニーズに合わせて適切なシステムディスク容量を持つ新しい DSW インスタンスを作成できます。
マウント設定
Q:DSW インスタンスに独自のファイルシステムをマウントして使用するにはどうすればよいですか?
インスタンス作成時に、OSS バケット、NAS ファイルシステム、CPFS ファイルシステム、または Lingjun CPFS ファイルシステムをマウントできます。その後、DSW ターミナルにマウントディレクトリを入力して、ファイルを表示および使用できます。
現在、DSW は、インスタンス作成時に同じリージョン内のファイルシステムのマウントのみをサポートしています。詳細については、「DSW インスタンスの作成」をご参照ください。
Q:NAS データセットを PAI-DSW インスタンスにマウントしてインスタンスを起動する際に、「The specified MountTarget 3b79d4a2ac-xmk97.cn-shanghai.nas.aliyuncs.com is not in VPC vpc(VPC-connected instance)」というエラーが表示されるのはなぜですか?
原因:NAS データセットの作成時にマウントポイントが設定されていました。
解決策:データセットを作成する際、マウントポイントのフィールドを空のままにしてください。

Q:ECS ベースの FTP を使用して NAS にファイルをアップロードおよびダウンロードするために mount コマンドを実行すると、「mount:wrong fs type,bad option,bad superblock」というエラーが表示されるのはなぜですか?
症状

解決策
mountコマンドを実行する前に、nfs-utils パッケージをインストールしてください。yum install nfs-utils
Q:OSS データセットをマウントした後、マウントされたディレクトリにアクセスすると「Input/output error」が発生した場合はどうすればよいですか?

このエラーは、ロールに OSS アクセス権限 (AliyunPAIDLCAccessingOSSRole) が付与されていないために発生します。権限を付与する方法については、「PAI サービスアカウントへの権限付与」をご参照ください。
Q:Jindo を使用して OSS データセットをマウントする際に、メモリ不足 (OOM) エラーのリスクを軽減するにはどうすればよいですか?
この問題は、次の 2 つの方法のいずれかで解決できます:
方法 1:メモリ使用量が最適化された Jindo 6.8.1 を使用する。
{ "fs.jindo.fuse.pod.image.tag":"6.8.1" }
方法 2:ossfs を使用する。
ジョブを送信する際に、次のように指定します:
{ "mountType": "ossfs" }
次の設定を使用して readdirplus の最適化を無効にすると、フォルダの内容を一覧表示する際のメタデータキャッシュの使用量を削減できます。これにより、OOM 問題を最小限に抑えることができます:
{ "mountType": "ossfs", "fs.ossfs.args": "-oreaddirplus=false" }
Q:OSS バケットを正常にマウントしましたが、JupyterLab インターフェイスの左側にあるファイルブラウザに表示されないのはなぜですか?
これは、DSW ファイルブラウザがデフォルトでインスタンスの作業ディレクトリ、通常は /mnt/workspace を表示するためです。OSS バケットをマウントする際に指定したマウントパス (例:/mnt/data) は、デフォルトの作業ディレクトリ内にないため、左側のファイルリストに表示されません。
解決策:
コード経由でのアクセス:ファイルは正常にマウントされています。コード内で、完全なマウントパスを使用してアクセスする必要があります。例:
open('/mnt/data/my_file.csv')。マウントポイントの変更:UI でファイルを簡単に表示するには、マウントを設定する際にマウントパスを作業ディレクトリのサブディレクトリに設定します。例:
/mnt/workspace/my_oss_data。マウントが完了すると、ファイルブラウザのmy_oss_dataフォルダに OSS ファイルが表示されます。ターミナル経由でのアクセス:DSW ターミナルで
cd /mnt/dataコマンドを実行してマウントディレクトリに入り、lsなどのコマンドを使用してファイルを操作できます。
Q:マウントされた OSS バケットを使用しているときに「Transport endpoint is not connected」または「input/output error」が表示されるのはなぜですか?
このエラーは、DSW インスタンスと OSS バケット間のマウント接続が切断されたことを示します。考えられる原因とトラブルシューティング方法は次のとおりです:
RAM ロールの権限の問題:DSW インスタンスに設定された RAM ロールに OSS へのアクセス権限 (例:
AliyunPAIDLCAccessingOSSRole) が付与されているかどうかを確認してください。権限が不十分な場合、OSS から読み取れない一般的な原因となります。マウントサービスのリソース不足:高強度のランダム読み書きや多数の小規模ファイル操作を実行すると、マウントを担当する
ossfsまたはJindoFuseプロセスがメモリ不足 (OOM) エラーでクラッシュする可能性があります。マウント設定の「詳細設定」で、メタデータキャッシュを無効にするか、メモリ設定を増やすことができます。詳細については、JindoFuse をご参照ください。接続の復元:
起動時に設定されたマウントの場合、接続を復元する最も簡単な方法は、DSW インスタンスを再起動することです。システムは自動的にマウントを再実行します。
PAI SDK を使用して動的マウントコマンドを実行し、インスタンスを再起動せずにパスを再マウントすることもできます。
Q:DSW はどのタイプのデータをマウントできますか?Alibaba Cloud Drive や MaxCompute テーブルを直接マウントできますか?
DSW は、データセットを作成するか、パスを直接マウントすることで、OSS、NAS、および CPFS クラウドストレージサービスの使用をサポートしています。
Alibaba Cloud Drive はサポートされていません:DSW は現在、個人の Alibaba Cloud Drive の直接マウントをサポートしていません。処理するデータは OSS に保存することをお勧めします。
MaxCompute テーブルのマウントはサポートされていません:MaxCompute (旧 ODPS) テーブルデータは、ファイルシステムのように DSW ディレクトリに直接「マウント」することはできません。PAI が提供する SDK または API を使用して、DSW コードでデータを読み書きできます。詳細については、「PyODPS を使用して MaxCompute テーブルを読み書きする」をご参照ください。
Q:DSW インスタンスがシャットダウンまたは削除された後、コードとデータは失われますか?データの永続性と移行を実現するにはどうすればよいですか?
DSW インスタンスのシステムディスクは一時ストレージです。パブリックリソースグループの場合、インスタンスが 15 日以上停止するとデータはクリアされます。専用リソースグループの場合、インスタンスが停止または削除された後もシステムディスクデータはクリアされます。
データとコードの永続的なストレージを実現し、異なるインスタンス間でそれらを移行するには、外部マウントストレージを使用する必要があります。
永続化ソリューション:すべての重要なデータ、コード、モデル、その他のアセットをマウントされた OSS または NAS パスに保存します。これにより、DSW インスタンスが削除されても、すべてのアセットはご自身の OSS バケットまたは NAS ファイルシステムに安全に保存されたままになります。
移行ソリューション:ある DSW インスタンスから別の DSW インスタンスにデータを移行する必要がある場合は、データを含む同じ OSS または NAS パスを新しいインスタンスにマウントするだけです。これが最も便利なデータ移行方法です。
Q:OSS バケットを正常にマウントしましたが、作業ディレクトリのファイルが OSS バケットに表示されないのはなぜですか?
OSS バケットをマウントする際に指定されたデフォルトのマウントパスは /mnt/data ですが、DSW のデフォルトの作業ディレクトリは /mnt/workspace です。そのため、作業ディレクトリのファイルは OSS バケットには表示されません。次のコピーコマンドを使用して、作業ディレクトリから /mnt/data にファイルをコピーできます。その後、OSS バケットに対応するファイルが表示されます。
cp -r /mnt/workspace/. /mnt/data/データの読み取り、アップロード、ダウンロード
Q:DSW を使用して OSS からデータを読み取るにはどうすればよいですか?
Python SDK または API を使用して OSS からデータを読み取ることができます。詳細については、「Object Storage Service (OSS) からのデータの読み取りと書き込み」をご参照ください。
Q:フォルダをアップロードおよびダウンロードするにはどうすればよいですか?
DSW は現在、フォルダの直接アップロードおよびダウンロードをサポートしていません。ただし、フォルダを圧縮することでアップロードおよびダウンロードできます。DSW ターミナルは Linux 環境を提供しており、tar、gzip、unzip などの標準的な Linux コマンドラインインターフェイスを使用してファイルを解凍できます。次の例では tar を使用します。
tar --versionを実行して tar がインストールされているか確認します。インストールされていない場合は、次のコマンドでインストールできます。# Debian ベースのシステム (Ubuntu など) のインストールコマンド sudo apt install tar # Red Hat ベースのシステム (CentOS、Fedora など) のインストールコマンド sudo yum install tarフォルダを解凍します。
# フォルダを圧縮します。/path/to/diretory は圧縮するフォルダです。 tar -cvf archive_name.tar /path/to/directory # フォルダを解凍します tar -xvf archive_name.tar
Q:2 つの DSW インスタンス間でデータを転送および共有するにはどうすればよいですか?
次の 2 つの方法のいずれかを使用できます:
データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント:両方の DSW インスタンスに同じデータセットまたは OSS パスをマウントし、そのデータセットまたはストレージパスにデータを保存してデータを共有します。
ファイルのアップロードとダウンロード:共有するデータをソース DSW インスタンスからダウンロードし、それを他の DSW インスタンスにアップロードします。
Q:「ダウンロード」をクリックしても応答がない、またはダウンロードが失敗した場合はどうすればよいですか?
これは通常、ネットワーク輻輳またはブラウザの問題が原因です。次の手順を試してください:
しばらくお待ちください。大きなファイルのダウンロードには、より長い応答時間が必要です。
別のブラウザに切り替えるか、ブラウザのシークレットモードを使用して再試行してください。
大きなファイル (200 MB を超えるファイルなど) やネットワークが不安定な場合は、OSS バケットをマウントしてダウンロードすることをお勧めします。
Q:「ファイル転送ステーション」の容量が不足していると表示された場合はどうすればよいですか?
ファイル転送ステーションの総容量は 10 GB です。転送ステーション管理ページに移動し、転送ステーション内のファイルをクリアして容量を解放する必要があります。ページがすぐに更新されない場合は、ブラウザをリフレッシュしてみてください。
Q:アップロード時に常に「ファイル転送ステーション」にリダイレクトされるのはなぜですか?
これは正常な動作です。アップロードの安定性と速度を確保するために、10 MB を超えるすべてのファイルは自動的にファイル転送ステーション経由で転送され、完了時にインスタンスに保存されます。
Q:大きなオンプレミスファイル (5 GB を超えるモデルなど) や大量のデータを DSW にアップロードして使用するにはどうすればよいですか?
DSW インスタンスのシステムディスク容量は限られており、一時ストレージです。大きなファイルや大量のデータを直接アップロードすることはお勧めしません。まずデータを Alibaba Cloud Object Storage Service (OSS) にアップロードし、それを DSW インスタンスにマウントして使用できます。詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。
インスタンスへのリモート接続
Q:ProxyClient を使用して DSW インスタンスに接続する際に「client_loop: send disconnect: Broken pipe」というエラーが表示されるのはなぜですか?
ProxyClient を使用して SSH 経由で DSW インスタンスに接続する際、長時間操作を行わないと接続が切断され、システムに次のプロンプトが表示されることがあります:

この問題を解決するには、より安定したリモート接続:直接 SSH 接続方法を使用して DSW インスタンスに接続することをお勧めします。
Q:VSCode でインスタンスにリモート接続した後、オンプレミスフォルダを開けないのはなぜですか?
この問題は通常、VSCode クライアントが原因です。オンプレミスファイルを DSW インスタンスにアップロードすることをお勧めします。具体的な操作については、「ファイルのアップロードとダウンロード」をご参照ください。
Q:直接 SSH 接続の設定が「Failed to update private zone items: Failed to add zone」というエラーメッセージで失敗するのはなぜですか?
このエラーは、内部 DNS 解決サービスが有効になっていないために発生します。このサービスを有効にすることができます。詳細については、「内部 DNS 解決の有効化」をご参照ください。
ネットワークの問題
Q:ネットワークのダウンロード速度が遅い問題を解決するにはどうすればよいですか?
DSW および DLC インスタンスは、デフォルトで共有ゲートウェイを使用します。帯域幅制限のため、大きなファイルをダウンロードする際にダウンロード速度がニーズを満たさない場合があります。したがって、ネットワークのダウンロード速度を向上させたい場合は、以下をご参照ください:
中国国内のリソースをダウンロードしている場合:インスタンスが配置されている VPC (仮想プライベートクラウド) にインターネット NAT Gateway を作成し、EIP (Elastic IP Address) をアタッチし、SNAT エントリを設定できます。詳細な操作については、「専用ゲートウェイを使用してパブリックネットワークアクセス速度を向上させる」をご参照ください。
注:この方法を使用する場合、ワークスペースのRate Limit for Internet Access スイッチが有効になっていることを確認してください。詳細については、「ワークスペースの管理」> [一般設定] をご参照ください。

中国本土以外のリソースをダウンロードしている場合:Global Accelerator (GA) を使用して中国以外からモデルやコンテナイメージをプルすることができます。
さらに、まずリソースファイルをオンプレミスデバイスにダウンロードし、それを直接DSW インスタンスにアップロードすることもできます。または、まず Object Storage Service (OSS) にアップロードし、それをDSW インスタンスにマウントすることもできます。
Q:DSW インスタンスにはパブリック IP アドレスがありますか?
DSW インスタンスには、デフォルトでパブリック IP アドレスは割り当てられません。インターネットにアクセスしたり、外部から DSW インスタンスにアクセスさせたりするには、NAT Gateway を設定するか、EIP (Elastic IP Address) を使用することをお勧めします。詳細については、「ネットワーク設定」をご参照ください。
Q:DSW インスタンスが NAT Gateway を介してパブリックネットワークに公開されている場合、パブリックネットワークポートは重複できますか?
DSW カスタムサービスを使用して外部にインターフェイスを提供する場合、複数のサービスが同じ NAT Gateway で設定されていると、その NAT Gateway を介してパブリックネットワークにアクセスするすべてのサービスのカスタムサービスポートは同じにできません。これには、異なる DSW インスタンスのカスタムサービスも含まれます。
Q:DSW インスタンスがパブリックネットワークにアクセスできないのはなぜですか?
DSW インスタンスは、デフォルトでPublic Gateway を介してパブリックネットワークにアクセスできます。パブリックネットワークにアクセスできない場合は、インスタンスの設定ページでInternet Access Gateway にPrivate Gateway が選択されているかどうかを確認してください。専用ゲートウェイを選択した場合は、EIP (Elastic IP Address) と SNAT エントリを設定する必要があります。詳細については、「専用ゲートウェイを使用してパブリックネットワークアクセス速度を向上させる」をご参照ください。または、パブリックゲートウェイを選択することもできます。

Q:hugging face にアクセスすると「Network is unreachable」エラーが表示されるのはなぜですか?
DSW インスタンスで中国本土以外からモデル (huggingface.co のモデルなど) をプルする場合、クロスドメインのネットワーク問題によりアクセスできないことがあります。この問題を解決するには、Global Accelerator (GA) インスタンスを作成し、そのグローバルネットワークアクセラレーションサービスを使用して、DSW がモデルやイメージを取得するためのクロスドメインネットワークアクセス機能を有効にすることができます。詳細については、「中国以外からモデルやコンテナイメージをプルする」をご参照ください。
サードパーティライブラリのインストール
Q:DSW でサードパーティライブラリを使用するにはどうすればよいですか?
DSW はサードパーティライブラリのインストールをサポートしています。詳細については、「サードパーティライブラリの管理」をご参照ください。
Q:pip でインストールしたパッケージや作成したコードは、DSW インスタンスをシャットダウン (停止) した後も失われますか?
いいえ、システムディスクとしてクラウドディスクを使用している場合は失われません。インスタンスのディスクデータ (/mnt/workspace および /root 配下の環境を含む) は保持されます。次回インスタンスを起動すると、すべての環境とファイルはそのまま残っています。インスタンスを完全に削除した場合にのみ、すべてのデータがクリアされます。
Q:インストールしたサードパーティパッケージが有効にならないのはなぜですか?
pip コマンドでサードパーティパッケージをインストールした後、import コマンドでパッケージが見つからない場合は、まずサービスまたはカーネルを再起動してみてください。エラーが解決しない場合は、現在使用している環境を確認してください。サードパーティパッケージをインストールすると、DSW はデフォルトで Python 3 環境にインストールします。別の環境にインストールするには、まず手動で環境を切り替えてからインストールを実行する必要があります。例:
Python 2 環境にインストールします。
source activate python2
pip install --user xxx
TensorFlow 2.0 環境にインストールします。
source activate tf2
pip install --user xxxここで、xxx はインストールするサードパーティパッケージの名前に置き換える必要があります。
Q:DSW で pip install でパッケージをインストールすると、依存関係の競合やバージョンエラーで失敗したのはなぜですか?
これは通常、環境の非互換性が原因です。次の手順に従ってトラブルシューティングと解決を行ってください:
イメージを変更する。これが推奨される解決策です。現在のインスタンスを停止し、新しい DSW インスタンスを作成して、別の公式イメージを選択します。たとえば、現在の PyTorch 2.1 イメージが機能しない場合は、PyTorch 2.3 イメージを試すか、通常は互換性が高い
modelscopeシリーズのイメージを試してください。特定のバージョンをインストールする。パッケージの公式ドキュメントを参照して、現在の DSW 環境 (Python/CUDA バージョン) をサポートするバージョンを見つけ、
pip install package_name==x.y.zを実行します。ダウンロードソースを変更する。清華大学ミラーなどの国内ミラーを試してください:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <yourLibraryName>。
Q:DSW ターミナルでライブラリをインストールしましたが、Jupyter Notebook でインポートすると見つからないのはなぜですか?
これは、ターミナルと Jupyter が 2 つの異なる Python 環境を使用しているためである可能性があります。which python コマンドを実行して現在使用されている Python 環境を確認するか、Notebook に必要なライブラリをインストールできます。例:

Q:コードで CUDA ドライバーのバージョンが低すぎるというエラーが報告されます。DSW で NVIDIA ドライバーを手動でアップグレードする必要がありますか?
ドライバーのバージョンをアップグレードしないでください。DSW インスタンスのドライバーと CUDA はプリインストール済みでロックされています。手動で変更することはできず、また変更すべきではありません。変更すると、インスタンスが破損して回復不能になる可能性が非常に高くなります。正しいアプローチは、DSW イメージを変更することです。現在のインスタンスを停止し、新しいインスタンスを作成して、より高いバージョンの CUDA とドライバーを持つ公式イメージを選択します。
たとえば、公式イメージ:modelscope:1.9.4-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04。ここで、cu118 は CUDA バージョンが 11.8 であることを示します。
Q:DSW で Docker を使用してアプリケーションをデプロイできますか?
Lingjun リソースで Docker を使用するには、チケットを送信してホワイトリストに追加してもらう必要があります。Lingjun 以外のリソースの DSW インスタンスは、インスタンスコンテナ内で別の Docker インスタンスを実行することをサポートしていません。
Q:DSW インスタンスに unzip または 7z コマンドがありません。ファイルを解凍するにはどうすればよいですか?
apt-get コマンドを使用してインストールできます。
unzipのインストール:ターミナルでapt-get update && apt-get install -y unzipを実行し、unzip your_file.zipを使用します。p7zip(7z 用) のインストール:ターミナルでapt-get update && apt-get install -y p7zip-fullを実行し、7z x your_file.7zを使用します。
Q:サードパーティパッケージのインストールが常にスタックしたり、タイムアウトしたりするのはなぜですか?
サードパーティライブラリのインストールがスタックしたり、タイムアウトしたり、非常に遅い場合は、通常、ネットワークの問題です。次の手順に従ってトラブルシューティングと解決を行ってください:
ステップ 1:ネットワーク接続の確認
ターミナルで ping www.aliyun.com コマンドを実行して、インターネットにアクセスできるかどうかをテストします。ネットワークが切断されている場合は、次のステップに進んでネットワーク設定を確認します。
ステップ 2:ゲートウェイ設定の確認
インスタンス設定ページで、Internet Access Gateway タイプを表示します:
パブリックゲートウェイ:デフォルトでは、DSW インスタンスはPublic Gateway を使用してインターネットにアクセスします。インスタンス設定ページでゲートウェイタイプを確認できます。パブリックゲートウェイは帯域幅が限られているため、大きなファイルのダウンロード速度が不十分な場合があります。この場合、専用ゲートウェイを使用できます。
専用ゲートウェイ:専用ゲートウェイは、より高速なネットワークアクセス速度を提供します。専用ゲートウェイを選択した後、VPC (仮想プライベートクラウド) にインターネット NAT Gateway を作成し、EIP (Elastic IP Address) をアタッチし、SNAT エントリを設定する必要があります。そうしないと、パブリックネットワークにアクセスできなくなります。詳細については、「専用ゲートウェイを使用してパブリックネットワークアクセス速度を向上させる」をご参照ください。
ステップ 3:pip ダウンロードソースの変更を試す
DSW はデフォルトで Alibaba Cloud ミラーソースを使用しますが、ピーク時やネットワークの変動により問題が発生する可能性があります。別の国内ミラーソースに切り替えることをお勧めします:
# 清華大学ミラーを使用してインストール (推奨)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn <yourLibraryName>
# USTC ミラーを使用してインストール
pip install -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host pypi.mirrors.ustc.edu.cn <yourLibraryName>
# Douban ミラーを使用してインストール
pip install -i https://pypi.doubanio.com/simple --trusted-host pypi.doubanio.com <yourLibraryName>デフォルトの pip ソースを永続的に変更するには、「pip ソースの表示または変更」をご参照ください。
ステップ 4:オフラインインストールを使用する
ネットワークが完全に切断されているか、非常に不安定な場合は、オフラインインストール方法を使用できます:
オンプレミスのコンピュータ (ネットワーク環境が良い) で、
.whl形式のインストールパッケージをダウンロードします:# オンプレミスのコンピュータで実行 pip download <yourLibraryName> -d ./packagesダウンロードした
.whlファイルを DSW インスタンスにアップロードします。ファイルのアップロードについては、「ファイルのアップロードとダウンロード」をご参照ください。DSW でオフラインインストールを実行します:
pip install /path/to/your-package.whl
Q:DSW WebIDE でルート権限を取得するにはどうすればよいですか?
ほとんどの公式 DSW イメージは、デフォルトで root ユーザーとして実行されます。ターミナルを開いたときにコマンドプロンプトが root@... であれば、すでにルートユーザーであることを意味します。pip インストール中に表示される「ルートユーザーとして実行することはお勧めしません」という警告は、安全に無視できます。イメージがルートとしてログインしていない場合は、これはイメージ自体の設定であり、ルートをサポートするイメージに切り替える必要があります。
Q:DSW で xserver を起動するにはどうすればよいですか?
DSW は xserver の起動をサポートしていません。
モデルのデプロイメント
Q:DSW で生成されたモデルをデプロイするにはどうすればよいですか?
EAS モデルデプロイメントサービスを使用する
モデリングが完了したら、PAI-EAS を使用してモデルをオンラインサービスとしてデプロイできます。詳細については、「モデルをオンラインサービスとしてデプロイする」をご参照ください。
オンプレミスデプロイメント用にモデルをダウンロードする
DSW で生成されたモデルを右クリックして、オンプレミスデバイスにダウンロードできます。
インスタンスの操作
Q:機械学習コードを実行しているとき、ページがしばらくアイドル状態になった後、なぜ再ログインを求められるのですか?
セキュリティ上の理由から、DSW のログインセッションは 3 時間有効です。有効期限が切れると、再度ログインする必要がありますが、これはタスクの実行には影響しません。タスクを長時間実行するには、DSW ターミナルで nohup コマンドを使用してバックグラウンドでタスクを実行することをお勧めします。
Q:DSW で実行中のトレーニングタスクは、ブラウザを閉じたり、コンピュータをシャットダウンしたりした後も継続されますか?
はい、継続されます。DSW インスタンスはクラウドで実行されており、オンプレミスデバイスを閉じても実行状態には影響しません。ただし、一部のインスタンス、特に無料トライアルインスタンスには、アイドルシャットダウンポリシーが設定されている場合があることに注意してください。CPU や GPU などのインスタンスのリソースが一定期間、特定のしきい値を下回ったままである場合、システムはインスタンスがアイドル状態であると判断し、自動的に停止することがあり、タスクが中断されます。
Q:なぜDSWは Docker を起動できないのですか?
DSW 自体がコンテナ内で実行されているため、DSW は Docker のインストールをサポートしていません。対応する CUDA バージョンは基盤となる仮想マシンにプリインストール済みであり、変更できません。nvidia-smi を使用して対応する CUDA バージョンを表示できます。
Q:ターミナルでタブの自動補完などの bash 機能がないのはなぜですか?
一部のイメージには使用制限があるため、ターミナルで手動で bash と入力し、Enter キーを押して bash 関連の機能を開始する必要があります。
Q:DSW で AI 開発を行っているときに、DSW インスタンスタイプが要件を満たさない場合はどうすればよいですか?
次の手順で DSW インスタンスタイプを更新できます:
DSW インスタンスリストで、インスタンス名をクリックしてインスタンスの詳細ページに移動します。
Instance Settings タブで、Change Settings をクリックします。
Change Instance Settings パネルで、インスタンスタイプを更新します。
説明DSW インスタンスタイプを更新する際、インスタンスが実行中の場合、更新操作はすぐにインスタンスを再起動します。インスタンス内のコンテンツを保存していることを確認してください。
Q:メモリ使用量が高いです。解放するにはどうすればよいですか?
メモリ使用量が高く、通常の操作に影響する場合は、次の 2 つの方法のいずれかで問題を解決できます。
メモリ使用量が高いためにコマンドラインを使用できない場合は、右上隅のStop Instance をクリックします。または、DSW コンソールに戻り、インスタンスの行にあるStop をクリックします。インスタンスが停止するのを待ってから、再度起動します。
まだコマンドラインと対話できる場合は、インスタンスのターミナルで
topコマンドを入力して、現在のすべてのプロセスのメモリ使用量を確認できます。%MEMは占有メモリの割合を示し、PIDはプロセス ID を示します。
大量のメモリを占有しているプロセスを終了したい場合は、コマンドラインに次のように入力します:
kill PIDPID は終了したいプロセスの PID に置き換える必要があります。コマンドを実行すると、メモリ使用量が減少したことがわかります。

Q:実行時に「RuntimeError: CUDA error: too many resources requested for launch」というエラーが表示されるのはなぜですか?
原因:このエラーは、CUDA カーネルが要求したリソースが利用可能なリソースを超えていることを示します。このエラーは通常、GPU のハードウェア制限に関連しています。
解決策:インスタンスを再起動してプログラムを再実行してみてください。それでもうまくいかない場合は、より高い仕様の GPU インスタンスを選択する必要があります。
Q:DSW がメモリ不足になったときに、スワップ領域を作成して仮想メモリを使用できますか?
DSW 自体はコンテナであり、スワップ領域の作成や管理をサポートしていません。
理由は次のとおりです:
権限の制限:コンテナのカーネル権限は制限されており、スワップファイルをマウントできません。コンテナ内でルート権限を取得しても、ホストのリソースポリシーをバイパスすることはできません。
プラットフォームポリシー:プラットフォームは、マルチテナント環境の安定性とセキュリティを確保するために、リソースを統一的にスケジュールおよび制限します。
提案:メモリが不足している場合は、コードを最適化するか、インスタンスタイプをスペックアップしてください。





