すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DSW FAQ

最終更新日:Mar 01, 2026

このトピックでは、DSW に関するよくある質問にお答えします。

インスタンスの起動

Q:DSW インスタンスの起動に失敗するのはなぜですか?

トラブルシューティング:DSW インスタンス名をクリックし、Events タブでエラーメッセージを確認します。

image

一般的なエラーとその解決策は次のとおりです:

  • Your requested resource type [ecs.******] is not enough currently, please try other regions or other resource types

    • 原因:選択したインスタンスタイプが現在のリージョンで不足しているため、インスタンスを作成できません。

    • 解決策:後でもう一度インスタンスを作成するか、別のインスタンスタイプまたはリージョンを選択してください。

  • Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.

    • 原因:DSW インスタンスを作成する際、各 Alibaba Cloud アカウントは、各リージョンで一度に最大 2 つの GPU を持つインスタンスしか作成できないように制限されています。選択したインスタンスタイプがこの制限を超えると、作成は失敗します。

    • 解決策:このクォータを増やすには、チケットを送信してください。

  • Sales of this resource are temporarily suspended in the specified zone. We recommend that you use the multi-zone creation function to avoid the risk of insufficient resource.

    このリソースの販売は指定されたゾーンで一時的に停止されています。リソース不足のリスクを避けるために、次のことを試してください:

    • 別のリージョンに切り替える。

    • インスタンスタイプを変更する。

    • オフピーク時にインスタンスを起動してみる。

  • CommodityInstanceNotAvailableError: Commodity instance has been released due to prolonged arrears at past. Please create a new instance for use

    • 原因:長期間の支払い遅延により、インスタンスが自動的にリリースされました。

    • 解決策:新しいインスタンスを作成してください。

  • The charge of current ECI instance has been stopped, but the related resources are still being cleaned.

    • 原因:トライアルリソースはパブリックリソースです。ピーク時に DSW インスタンスを起動すると、起動に 30 分以上かかる場合があります。1 時間以内にリソースをプルできない場合、システムは選択したインスタンスタイプが現在のリージョンで利用できないことを示します。

    • 解決策:次のことを試してください:

      • 別のリージョンに切り替える。

      • インスタンスタイプを変更する。保留中のインスタンスのタイプは変更できません。まずインスタンスを停止してから、タイプを変更する必要があります。

      • 勤務時間外など、オフピーク時にインスタンスを使用する。

      • これらの解決策でうまくいかない場合は、アカウントマネージャーにお問い合わせください。

  • The cluster resources are fully utilized. Please try later or other regions.

    • 原因:コンピューティングリソースが完全に使用されています。

    • 解決策:次のことを試してください:

      • 別のリージョンに切り替える。

      • インスタンスタイプを変更する。保留中のインスタンスのタイプは変更できません。まずインスタンスを停止してから、タイプを変更する必要があります。

      • 勤務時間外など、オフピーク時にインスタンスを使用する。

      • これらの解決策でうまくいかない場合は、アカウントマネージャーにお問い合わせください。

  • Create ECI failed because the specified instance is out of stock. It is recommended to use the multi-zone creation function to avoid the risk of stockout.

    • 原因:指定されたコンピューティングリソースの在庫がありません。

    • 解決策:次のことを試してください:

      • 別のリージョンに切り替える。

      • インスタンスタイプを変更する。保留中のインスタンスのタイプは変更できません。まずインスタンスを停止してから、タイプを変更する必要があります。

      • 勤務時間外など、オフピーク時にインスタンスを使用する。

      • これらの解決策でうまくいかない場合は、アカウントマネージャーにお問い合わせください。

  • back-off 10s restarting failed container=dsw-notebook pod

    • 原因:システムディスクがいっぱいです。システムディスクを拡張する必要があります。

      システムディスクの使用状況を確認するには:

      image

      image

    • 解決策Change Settings 機能を使用してシステムディスクを拡張できます:

      image

      重要

      システムディスクを拡張すると、インスタンスの状態に関係なく課金されます。DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。

  • the available zone with vSwitch is out of stock

    • 原因:DSW インスタンスを作成する際に VPC (仮想プライベートクラウド) を設定すると、VPC 内の vSwitch にはゾーン属性があります。vSwitch を設定すると、コンピューティングリソースの検索が vSwitch が存在するゾーンに限定されるため、リソース不足が発生する可能性があります。

    • 解決策

      1. 別のゾーンで vSwitch と DSW インスタンスを作成してみてください。

      2. 別の DSW インスタンスタイプを選択してみてください。

  • Startup failed. The error message "Workspace member not found" is returned.

    このエラーは、使用しているアカウントがターゲットワークスペースのメンバーではないことを示します。ワークスペースの管理者に連絡して、アカウントをメンバーとして追加してもらってください。

  • failed to create containerd container: failed to prepare layer from archive: failed to validate archive quota ...

    • 原因:インスタンスの作成に使用されたイメージが大きすぎるため、システムディスクの容量が不足しています。

    • 解決策:インスタンスの詳細ページに移動し、システムディスクを拡張します。拡張されたシステムディスクの容量に基づいて追加料金が課金されることに注意してください。

      image

その他の起動失敗の原因:

  • 支払い遅延による作成失敗

    アカウントに支払い遅延がある場合、DSW インスタンスは作成できません。バウチャーは支払い遅延額の支払いには使用できません。ユーザーセンターにログインして、支払い遅延を確認してください。

Q:リソースの在庫またはクォータが不足していると表示された場合はどうすればよいですか?

一般的なエラー:

  • "Your requested resource type [ecs.******] is not enough currently" (リソースの在庫不足)。

  • "Your resource usage has exceeded the default limitation" (リージョンごとに 2 GPU の制限を超過)。

  • "The cluster resources are fully utilized" (コンピューティングリソースが完全に使用されている)。

原因分析:

  • パブリックリソースの在庫不足

    • パブリックリソースは複数のユーザーで共有されており、ピーク時には不足する可能性があります。

    • ハイエンド GPU などの特定の GPU タイプは、在庫切れになりやすいです。

    • 各アカウントは、リージョンごとに 2 GPU に制限されています。

  • 専用リソースのクォータ不足

    • 専用リソースのクォータを購入しましたが、使い切ってしまいました。

    • クォータが適切に割り当てられておらず、特定のワークスペースのクォータが不足しています。

解決策

  • インスタンスタイプを変更する:選択した GPU タイプが在庫切れの場合は、別の GPU タイプを試してください。

  • 別のリージョンに切り替える:PAI コンソール左上のリージョンを切り替えて、そこでインスタンスを作成してみてください。

  • GPU クォータを増やす:2 つ以上の GPU を持つパブリックリソースを使用するには、チケットを送信してください。

  • 専用リソースを購入する:安定したリソース供給が必要な場合は、専用リソースのクォータを購入してください。詳細については、「汎用コンピューティングリソースの購入」および「リソースクォータの管理」をご参照ください。

Q:DSW インスタンスの起動時に Python ファイルを実行できますか?

DSW インスタンスの作成時またはインスタンス設定の変更時に、Custom Startup Scriptを設定できます。

image

この機能により、インスタンス起動時に環境をカスタマイズしたり、初期化タスクを実行したりできます。カスタムスクリプトは、イメージとリソースの準備が完了した後、JupyterLab や Code Server などの開発アプリケーションが起動する前に実行されます。

説明
  • タイムアウト時間は 3 分です。カスタムスクリプトはインスタンスの起動時間を増加させ、3 分後にタイムアウトします。イメージのダウンロードなど、時間のかかるタスクをカスタムスクリプトで実行しないでください。

  • スクリプトの操作ログを表示できます。インスタンス起動後、カスタムスクリプトによって生成された操作ログは `/var/log/user-command/` パスにあります。

Q:DSW インスタンスが見つかりません。どうすればよいですか?

概要ページで、さまざまなタイプのインスタンスを表示し、異なるリージョンに切り替えてみてください。

image

Q:DSW ページが異常または無応答の場合はどうすればよいですか?

空白のページ、常に読み込み中の Notebook、コマンドを受け付けないターミナルなどの問題は、通常、オンプレミス環境に関連しています。次の手順を試してください:

  1. ブラウザのキャッシュをクリアして再試行してください。

  2. ブラウザのシークレットモードまたはプライベートモードを使用してページにアクセスしてください。

  3. 会社の内部ネットワークからモバイルホットスポットに切り替えるなど、ネットワーク環境を変更して、ファイアウォールの制限を確認してください。

  4. Chrome や Firefox など、別のブラウザを使用してみてください。

Q:クラウドディスクを持つ DSW インスタンスのシステムディスク上のデータは、インスタンスの停止、再起動、設定変更、またはイメージ変更を行うと失われますか?

DSW インスタンスのシステムディスクは、パブリックリソースグループ内のインスタンスおよび、システムディスクとしてDisk を選択した汎用コンピューティングリソースインスタンスの場合、クラウドディスクです。システムディスク上のデータ損失については、以下のとおりです:

  • インスタンスの停止:データが失われる可能性があります。クラウドディスクが拡張されておらず、インスタンスが 15 日以上停止したままである場合、データはクリアされ、回復できません。クラウドディスクが拡張されているか、インスタンスが 15 日未満停止している場合、データは失われません。

  • インスタンスの再起動:データは失われません。インスタンスを停止または再起動した後、pip を使用してインストールされたすべてのパッケージ、コードファイル、およびインスタンスのシステムディスクに保存されているその他のデータは保持されます。

  • インスタンスタイプの変更:データは失われません。CPU、メモリ、GPU リソースなどのインスタンスタイプを調整しても、インスタンスのシステムディスク上のデータには影響しません。

  • インスタンスイメージの変更:一部のデータが失われる可能性があります。イメージを変更しても、マウントされたデータセットや OSS 内のデータには影響しませんが、システムディスク上のコンテンツはリセットされる可能性があります。したがって、インスタンスイメージを変更する前に、インスタンスデータを保存してください。たとえば、データをデータセットや OSS にコピーまたは移動できます。詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。

システムディスクとしてTemporary Storage を使用する汎用コンピューティングリソースインスタンスの場合、AI リソースグループがサブスクリプションのクラウドディスクで構成されていても、インスタンスが停止、再起動、またはその設定やイメージが変更されると、システムディスク上のデータは失われます。

Q:15 日以上非アクティブだったためにリリースされたパブリックリソースから作成された DSW インスタンスを取得できますか?

パブリックリソースから作成された DSW インスタンスの場合、システムディスクが有料で拡張されておらず、インスタンスが 15 日以上連続して停止していると、そのシステムディスクは自動的にクリアされます。データは回復できません。

インスタンスの停止、削除、またはリリース

Q:DSW インスタンスをリリースするにはどうすればよいですか?

DSW インスタンスリストページで、対象インスタンスの [停止] または [削除] をクリックします。

image

注:DSW インスタンスを作成する際にシステムディスクを拡張した場合、インスタンスの状態に関係なくシステムディスクに対して課金されます。DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。

Q:DSW インスタンスが見つからないのはなぜですか?

インスタンスが見つからない場合は、異なるリージョンやワークスペースに切り替えてみてください。

image

Q:無料トライアルのリソースプランをリリースするにはどうすればよいですか?

無料トライアルのリソースプランをリリースまたは停止する必要はありません。

Q:DSW インスタンスの課金を完全に停止するにはどうすればよいですか?インスタンスの「停止」と「削除」の違いは何ですか?

  • インスタンスの停止:この操作により、インスタンスのコンピューティングリソース (CPU/GPU) が解放され、それらの課金が一時停止されます。拡張されたシステムディスクについては引き続き課金されることに注意してください

  • インスタンスの削除:この操作により、インスタンスとそのすべてのリソース (システムディスクを含む) が完全に削除されます。関連するすべての課金が停止します。

選択方法

  • 停止:一時的にインスタンスは不要だが、将来の再起動のためにデータと環境を保持したい場合に使用します。

  • 削除:インスタンスが不要になり、すべての課金を停止したい場合に使用します。この操作を実行する前に、データをバックアップしてください。

Q:DSW インスタンスが「停止中」または「削除中」の状態で長時間スタックするのはなぜですか?

インスタンスの停止または削除には時間がかかります。システムはタスクを安全に終了し、状態を保存し、リソースを回収する必要があります。インスタンスが長時間応答しない場合、一般的な原因は次のとおりです:

  • インスタンスに正常に終了していないプロセスがある。

  • メモリ使用量が高すぎて、インスタンスがシャットダウンコマンドに応答できない。

この場合、しばらく待ってからページを更新してください。インスタンスの状態が「停止」に変わるはずです。

Q:DSW インスタンスを停止または削除した後、データとコードは失われますか?

データが保持されるかどうかは、操作とインスタンスのリソースグループタイプによって異なります。

  • インスタンスの停止

    データ保持ポリシーはリソースグループタイプによって異なります。

    • システムディスクとしてDiskを使用するほとんどの従量課金インスタンスでは、クラウドディスクが拡張されておらず、インスタンスが 15 日を超えて停止したままである場合、データは消去され、回復できなくなります。クラウドディスクが拡張されているか、インスタンスの停止期間が 15 日未満である場合、データは失われません。

    • システムディスクとしてTemporary Storage を使用するインスタンスでは、インスタンスが停止するとデータは削除され、回復できません。

  • インスタンスの削除

    システムディスク上のすべてのデータは完全に消去され、回復できません。したがって、インスタンスを削除する前に、すべての重要なデータをバックアップしてください。

Q:実行中の DSW インスタンスが自動的に停止するのはなぜですか?

インスタンスにはアイドルシャットダウンポリシーが設定されています。このポリシーはリソースを節約するために設計されており、無料トライアルインスタンスではデフォルトで有効になっています。

  • トリガー条件:インスタンスの CPU および GPU 使用率が、3 時間の期間、設定されたしきい値を継続して下回る。

  • 推奨されるアクション:

    • 手動停止:リソースを節約するために、使用していないときはインスタンスを手動で停止してください。アイドルシャットダウンポリシーが毎回トリガーされるとは限りません。

    • ポリシーの変更:長期間のタスクを実行するには、このポリシーを変更または無効にすることができます。手順は次のとおりです:

      DSW 自動シャットダウンポリシーの変更

      1. ワークスペースの詳細ページで、Configure Workspace > Auto-stop Settings をクリックします。

        image

      2. DSW 設定エリアを見つけます。ここで、DSW シャットダウンポリシーと除外ポリシーを変更できます。たとえば、インスタンスを自動的にシャットダウンしたくない場合は、除外ポリシーでその名前によって除外できます。

        image

Q:すべての DSW インスタンスを停止または削除したのに、なぜ「実行中」と表示されたり、課金通知が届いたりするのですか?

一般的な原因は次のとおりです:

  • リソースプランとインスタンスを混同している可能性があります。表示されている「実行中」のステータスは、インスタンスではなくリソースプラン (例:「月あたり 250 課金時間」) を指している可能性があります。リソースプランは有効期間内は常に有効であり、そのステータスはインスタンスのステータスとは無関係です。

  • 拡張されたシステムディスクがまだ課金されています。インスタンスを停止すると、コンピューティングリソースの課金は一時停止されますが、拡張されたシステムディスクは引き続きストレージ料金が発生します。

  • 課金に遅延があります。課金はリアルタイムではなく、リソースを使用してから数時間後に請求書が生成される場合があります。たとえば、午前中に発生した料金が午後に請求書に表示されることがあります。

課金と請求書

Q:DSW はどのように課金されますか?インスタンスはオンになっているだけでコードを実行していないのに、なぜ課金されるのですか?

  • DSW はサブスクリプションと従量課金の課金方法をサポートしています。必要に応じて課金方法を選択できます。課金の詳細については、「DSW の課金」をご参照ください。

  • 従量課金の場合、インスタンスの実行時間に基づいて課金されます。実行中のインスタンスは継続的にコンピューティングリソースを占有するため、コードが実行されていなくても、または WebIDE が開いていなくても、インスタンスが実行中状態である限り課金されます。

Q:DSW の請求書を表示するにはどうすればよいですか?

従量課金ユーザーの場合、[費用とコスト] ページに移動して課金の詳細を表示できます。詳細については、「課金の詳細の表示」をご参照ください。

Q:DSW インスタンスを停止した後も課金されるのはなぜですか?

インスタンスを停止した後に課金される理由は、通常 2 つあります:

  • 課金の遅延:従量課金の場合、請求書の生成と引き落としに遅延があります。受け取る課金通知は、インスタンスを停止する前の実際の使用量に対するものであり、停止後に発生した料金に対するものではない可能性があります。

  • システムディスクの拡張:DSW インスタンスを作成する際にシステムディスクを拡張した場合、インスタンスが停止状態であってもシステムディスクのストレージ料金は継続して発生します。拡張されたシステムディスクはスケールインできません。課金を停止するには、インスタンスを削除する必要があります。インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。インスタンスが削除されると、データは回復できません。

    システムディスクが拡張されているかどうかを判断するには、インスタンス名をクリックして詳細ページに移動し、システムディスク容量が無料クォータを超えているかどうかを確認します。パブリックリソースグループのインスタンスには、100 GiB の無料クォータがあります。

    image

Q:DSW インスタンスに関連するすべての課金を完全に停止するにはどうすればよいですか?

  • DSW インスタンスのすべての課金を停止する最も確実な方法は、インスタンスを削除することです。インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。インスタンスが削除されると、データは回復できません。

    image

  • 異なるワークスペースやリージョンに切り替えて、すべてのインスタンスが削除されていることを確認できます。

    image

Q:1 時間未満使用した従量課金 DSW インスタンスの料金はどのように計算されますか?

従量課金インスタンスの料金は、実際に使用した分数に基づいて計算されます。数式は次のとおりです:請求額 = (単価 / 60) × 実際のサービス利用時間 (分)

モデルのプル

Q:モデルをプルする際に「Failed to pull image 'crpi-****-vpc.cn-hangzhou.personal.cr.aliyuncs.com/apo/cat:full'」というエラーが表示されるのはなぜですか?

DSW インスタンスを作成する際に、レジストリアドレスを設定し、イメージリポジトリが非公開である場合、イメージリポジトリのユーザー名とパスワードを入力する必要があります。

image

イメージの使用

Q:イメージ作成時に「insufficient capacity of ephemeral storage」というエラーが表示されるのはなぜですか?

原因:イメージを作成する際、システムはシステムディスクの残りの空き領域が書き込むレイヤーのサイズより大きいかどうかを確認します。空き領域が不足している場合、このエラーが報告されます。

解決策:DSW ターミナルで df -h を実行してファイルシステムのディスク領域使用量を確認し、オーバーレイが使用する領域が /dev/vda4 の利用可能な領域を超えていないことを確認します。利用可能な領域を超えている場合は、イメージ作成時にCustom Excluded Path を設定することで問題を解決できます。

image

image

Q:DSW で Docker イメージを使用するにはどうすればよいですか?

  • Docker イメージを使用して DSW インスタンスを起動する:Docker イメージを Alibaba Cloud Container Registry (ACR) にプッシュし、それを PAI ワークスペースのカスタムイメージに追加できます。その後、このイメージを選択して DSW インスタンスを起動できます。

  • 現在の DSW イメージ環境をパッケージ化して他のインスタンスを起動したり、モデルをデプロイしたりするには、「DSW インスタンスイメージの作成」をご参照ください。

  • DSW クラウドベース IDE に Docker をインストールして使用する:パブリックリソースおよび汎用コンピューティングリソースから作成されたインスタンスは、DSW 内での Docker のインストールと使用をサポートしていません。ただし、Lingjun リソースはこれをサポートしています。

Q:DSW イメージの作成が失敗したり、タイムアウトしたりするのはなぜですか?

  • イメージサイズが制限を超えている:DSW イメージを作成する際、単一のイメージレイヤーのデータ量は 10 GiB を超えることはできません。超えると、ビルドは失敗します。イメージサイズを小さくしてみてください。

  • リージョンの不一致:DSW インスタンスと ACR インスタンスは同じリージョンにある必要があります。そうでない場合、イメージ作成時に対応するイメージリポジトリが見つかりません。

  • システムディスク容量の不足:イメージを作成する際、システムディスクの残りの空き領域がイメージレイヤーに書き込むデータサイズより小さい場合、「insufficient capacity of ephemeral storage」エラーが報告されます。

  • ネットワークの問題:ACR Personal Edition を使用する場合、イメージはパブリックネットワーク経由でプッシュされます。大きなイメージは、ネットワークの変動や長い転送時間のために失敗する可能性があります。ACR Enterprise Edition インスタンスが DSW インスタンスと同じ VPC にバインドされている場合、イメージは内部ネットワーク経由でプッシュでき、より高速で安定しています。

Q:「イメージの作成」ボタンがグレーアウトしている、またはイメージ作成時にイメージリポジトリが見つからないのはなぜですか?

  1. インスタンスの状態が正しくない:「イメージの作成」機能は、実行中の DSW インスタンスでのみ利用可能です。インスタンスが停止中または他の状態の場合、ボタンはグレーアウトして利用できません。

  2. 前提条件が満たされていない、または設定エラー:

    • まず、DSW インスタンスと同じリージョンに ACR インスタンスを作成し、その中に名前空間とイメージリポジトリを作成する必要があります。

    • DSW インスタンスと ACR インスタンスが同じリージョンにあることを確認してください。

Q:イメージ作成時に「Push image registry-vpc.cn-****.aliyuncs.com/****/lm-mirrors:**** Failed: Push container failed, Container Name: dsw-notebook」というエラーが表示されるのはなぜですか?

イメージを作成する際、単一のイメージレイヤーのデータ量が 10 GiB を超えないようにしてください。超えると、ビルドは失敗します。パブリックリソースグループの DSW インスタンスの場合、カスタム除外パスを設定して、特定のファイルやディレクトリが最終的に生成されるイメージに含まれないようにすることができます。または、OSS パスなどのストレージパスをマウントして、マウントされたパスにデータを保存し、そのパス経由でアクセスすることもできます。

image

システムディスクの拡張

Q:DSW インスタンスのシステムディスクはどのくらいの大きさですか?また、いっぱいになった場合はどうすればよいですか?

DSW インスタンス内のファイルとデータはデフォルトでシステムディスクに保存され、一定量の無料クォータが提供されます。

  • 無料クォータの表示

    パブリックリソースグループで作成されたインスタンスには、100 GiB の無料クォータがあります。汎用コンピューティングリソースは、仕様要件を満たす場合にのみ無料のシステムディスクを提供します。Lingjun リソースは無料のクラウドディスクを提供しません。インスタンス設定ページのシステムディスクオプションで、具体的な無料システムディスク容量を確認できます。手順:

    1. インスタンスリストページで、インスタンス名をクリックします。

    2. 右上隅で Change Settings をクリックし、System Disk までスクロールします。

    image

  • システムディスク使用量の表示

    DSW インスタンス名をクリックします。[環境コンテキスト] セクションで、システムディスクの使用量を確認できます。

    image

  • システムディスクがいっぱいになったときの拡張

    システムディスクの容量使用量が無料クォータを超えた場合、システムディスクを拡張するか、データセットをマウントすることを選択できます。

Q:システムディスクはスケールインできますか?

DSW システムディスクは、拡張後にスケールインすることはできません。以前に作成した DSW インスタンスのシステムディスク容量が大きすぎると感じ、インスタンス内の重要な情報をバックアップする必要がある場合は、データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムをマウントして、データを OSS にバックアップできます。その後、DSW インスタンスを削除して継続的な課金を避け、ニーズに合わせて適切なシステムディスク容量を持つ新しい DSW インスタンスを作成できます。

マウント設定

Q:DSW インスタンスに独自のファイルシステムをマウントして使用するにはどうすればよいですか?

インスタンス作成時に、OSS バケット、NAS ファイルシステム、CPFS ファイルシステム、または Lingjun CPFS ファイルシステムをマウントできます。その後、DSW ターミナルにマウントディレクトリを入力して、ファイルを表示および使用できます。

現在、DSW は、インスタンス作成時に同じリージョン内のファイルシステムのマウントのみをサポートしています。詳細については、「DSW インスタンスの作成」をご参照ください。

Q:NAS データセットを PAI-DSW インスタンスにマウントしてインスタンスを起動する際に、「The specified MountTarget 3b79d4a2ac-xmk97.cn-shanghai.nas.aliyuncs.com is not in VPC vpc(VPC-connected instance)」というエラーが表示されるのはなぜですか?

  • 原因:NAS データセットの作成時にマウントポイントが設定されていました。

  • 解決策:データセットを作成する際、マウントポイントのフィールドを空のままにしてください。

image

Q:ECS ベースの FTP を使用して NAS にファイルをアップロードおよびダウンロードするために mount コマンドを実行すると、「mount:wrong fs type,bad option,bad superblock」というエラーが表示されるのはなぜですか?

  • 症状

  • 解決策

    mount コマンドを実行する前に、nfs-utils パッケージをインストールしてください。

    yum install nfs-utils

Q:OSS データセットをマウントした後、マウントされたディレクトリにアクセスすると「Input/output error」が発生した場合はどうすればよいですか?

image

このエラーは、ロールに OSS アクセス権限 (AliyunPAIDLCAccessingOSSRole) が付与されていないために発生します。権限を付与する方法については、「PAI サービスアカウントへの権限付与」をご参照ください。

Q:Jindo を使用して OSS データセットをマウントする際に、メモリ不足 (OOM) エラーのリスクを軽減するにはどうすればよいですか?

この問題は、次の 2 つの方法のいずれかで解決できます:

  • 方法 1:メモリ使用量が最適化された Jindo 6.8.1 を使用する。

    {
        "fs.jindo.fuse.pod.image.tag":"6.8.1"
    }

    image

  • 方法 2:ossfs を使用する。

    ジョブを送信する際に、次のように指定します:

    {
        "mountType": "ossfs"
    }

    image

    次の設定を使用して readdirplus の最適化を無効にすると、フォルダの内容を一覧表示する際のメタデータキャッシュの使用量を削減できます。これにより、OOM 問題を最小限に抑えることができます:

    {
        "mountType": "ossfs",
        "fs.ossfs.args": "-oreaddirplus=false"
    }

Q:OSS バケットを正常にマウントしましたが、JupyterLab インターフェイスの左側にあるファイルブラウザに表示されないのはなぜですか?

これは、DSW ファイルブラウザがデフォルトでインスタンスの作業ディレクトリ、通常は /mnt/workspace を表示するためです。OSS バケットをマウントする際に指定したマウントパス (例:/mnt/data) は、デフォルトの作業ディレクトリ内にないため、左側のファイルリストに表示されません。

解決策:

  • コード経由でのアクセス:ファイルは正常にマウントされています。コード内で、完全なマウントパスを使用してアクセスする必要があります。例:open('/mnt/data/my_file.csv')

  • マウントポイントの変更:UI でファイルを簡単に表示するには、マウントを設定する際にマウントパスを作業ディレクトリのサブディレクトリに設定します。例:/mnt/workspace/my_oss_data。マウントが完了すると、ファイルブラウザの my_oss_data フォルダに OSS ファイルが表示されます。

  • ターミナル経由でのアクセス:DSW ターミナルで cd /mnt/data コマンドを実行してマウントディレクトリに入り、ls などのコマンドを使用してファイルを操作できます。

Q:マウントされた OSS バケットを使用しているときに「Transport endpoint is not connected」または「input/output error」が表示されるのはなぜですか?

このエラーは、DSW インスタンスと OSS バケット間のマウント接続が切断されたことを示します。考えられる原因とトラブルシューティング方法は次のとおりです:

  1. RAM ロールの権限の問題:DSW インスタンスに設定された RAM ロールに OSS へのアクセス権限 (例:AliyunPAIDLCAccessingOSSRole) が付与されているかどうかを確認してください。権限が不十分な場合、OSS から読み取れない一般的な原因となります。

  2. マウントサービスのリソース不足:高強度のランダム読み書きや多数の小規模ファイル操作を実行すると、マウントを担当する ossfs または JindoFuse プロセスがメモリ不足 (OOM) エラーでクラッシュする可能性があります。マウント設定の「詳細設定」で、メタデータキャッシュを無効にするか、メモリ設定を増やすことができます。詳細については、JindoFuse をご参照ください。

  3. 接続の復元:

    • 起動時に設定されたマウントの場合、接続を復元する最も簡単な方法は、DSW インスタンスを再起動することです。システムは自動的にマウントを再実行します。

    • PAI SDK を使用して動的マウントコマンドを実行し、インスタンスを再起動せずにパスを再マウントすることもできます。

Q:DSW はどのタイプのデータをマウントできますか?Alibaba Cloud Drive や MaxCompute テーブルを直接マウントできますか?

DSW は、データセットを作成するか、パスを直接マウントすることで、OSS、NAS、および CPFS クラウドストレージサービスの使用をサポートしています。

  • Alibaba Cloud Drive はサポートされていません:DSW は現在、個人の Alibaba Cloud Drive の直接マウントをサポートしていません。処理するデータは OSS に保存することをお勧めします。

  • MaxCompute テーブルのマウントはサポートされていません:MaxCompute (旧 ODPS) テーブルデータは、ファイルシステムのように DSW ディレクトリに直接「マウント」することはできません。PAI が提供する SDK または API を使用して、DSW コードでデータを読み書きできます。詳細については、「PyODPS を使用して MaxCompute テーブルを読み書きする」をご参照ください。

Q:DSW インスタンスがシャットダウンまたは削除された後、コードとデータは失われますか?データの永続性と移行を実現するにはどうすればよいですか?

DSW インスタンスのシステムディスクは一時ストレージです。パブリックリソースグループの場合、インスタンスが 15 日以上停止するとデータはクリアされます。専用リソースグループの場合、インスタンスが停止または削除された後もシステムディスクデータはクリアされます。

データとコードの永続的なストレージを実現し、異なるインスタンス間でそれらを移行するには、外部マウントストレージを使用する必要があります。

  • 永続化ソリューション:すべての重要なデータ、コード、モデル、その他のアセットをマウントされた OSS または NAS パスに保存します。これにより、DSW インスタンスが削除されても、すべてのアセットはご自身の OSS バケットまたは NAS ファイルシステムに安全に保存されたままになります。

  • 移行ソリューション:ある DSW インスタンスから別の DSW インスタンスにデータを移行する必要がある場合は、データを含む同じ OSS または NAS パスを新しいインスタンスにマウントするだけです。これが最も便利なデータ移行方法です。

Q:OSS バケットを正常にマウントしましたが、作業ディレクトリのファイルが OSS バケットに表示されないのはなぜですか?

OSS バケットをマウントする際に指定されたデフォルトのマウントパスは /mnt/data ですが、DSW のデフォルトの作業ディレクトリは /mnt/workspace です。そのため、作業ディレクトリのファイルは OSS バケットには表示されません。次のコピーコマンドを使用して、作業ディレクトリから /mnt/data にファイルをコピーできます。その後、OSS バケットに対応するファイルが表示されます。

cp -r /mnt/workspace/. /mnt/data/

データの読み取り、アップロード、ダウンロード

Q:DSW を使用して OSS からデータを読み取るにはどうすればよいですか?

Python SDK または API を使用して OSS からデータを読み取ることができます。詳細については、「Object Storage Service (OSS) からのデータの読み取りと書き込み」をご参照ください。

Q:フォルダをアップロードおよびダウンロードするにはどうすればよいですか?

DSW は現在、フォルダの直接アップロードおよびダウンロードをサポートしていません。ただし、フォルダを圧縮することでアップロードおよびダウンロードできます。DSW ターミナルは Linux 環境を提供しており、targzipunzip などの標準的な Linux コマンドラインインターフェイスを使用してファイルを解凍できます。次の例では tar を使用します。

  1. tar --version を実行して tar がインストールされているか確認します。インストールされていない場合は、次のコマンドでインストールできます。

    # Debian ベースのシステム (Ubuntu など) のインストールコマンド
    sudo apt install tar
    
    # Red Hat ベースのシステム (CentOS、Fedora など) のインストールコマンド
    sudo yum install tar

  2. フォルダを解凍します。

    # フォルダを圧縮します。/path/to/diretory は圧縮するフォルダです。
    tar -cvf archive_name.tar /path/to/directory
    
    # フォルダを解凍します
    tar -xvf archive_name.tar

Q:2 つの DSW インスタンス間でデータを転送および共有するにはどうすればよいですか?

次の 2 つの方法のいずれかを使用できます:

Q:「ダウンロード」をクリックしても応答がない、またはダウンロードが失敗した場合はどうすればよいですか?

これは通常、ネットワーク輻輳またはブラウザの問題が原因です。次の手順を試してください:

  1. しばらくお待ちください。大きなファイルのダウンロードには、より長い応答時間が必要です。

  2. 別のブラウザに切り替えるか、ブラウザのシークレットモードを使用して再試行してください。

  3. 大きなファイル (200 MB を超えるファイルなど) やネットワークが不安定な場合は、OSS バケットをマウントしてダウンロードすることをお勧めします。

Q:「ファイル転送ステーション」の容量が不足していると表示された場合はどうすればよいですか?

ファイル転送ステーションの総容量は 10 GB です。転送ステーション管理ページに移動し、転送ステーション内のファイルをクリアして容量を解放する必要があります。ページがすぐに更新されない場合は、ブラウザをリフレッシュしてみてください。

Q:アップロード時に常に「ファイル転送ステーション」にリダイレクトされるのはなぜですか?

これは正常な動作です。アップロードの安定性と速度を確保するために、10 MB を超えるすべてのファイルは自動的にファイル転送ステーション経由で転送され、完了時にインスタンスに保存されます。

Q:大きなオンプレミスファイル (5 GB を超えるモデルなど) や大量のデータを DSW にアップロードして使用するにはどうすればよいですか?

DSW インスタンスのシステムディスク容量は限られており、一時ストレージです。大きなファイルや大量のデータを直接アップロードすることはお勧めしません。まずデータを Alibaba Cloud Object Storage Service (OSS) にアップロードし、それを DSW インスタンスにマウントして使用できます。詳細については、「データセット、OSS バケット、NAS ファイルシステム、または CPFS ファイルシステムのマウント」をご参照ください。

インスタンスへのリモート接続

Q:ProxyClient を使用して DSW インスタンスに接続する際に「client_loop: send disconnect: Broken pipe」というエラーが表示されるのはなぜですか?

ProxyClient を使用して SSH 経由で DSW インスタンスに接続する際、長時間操作を行わないと接続が切断され、システムに次のプロンプトが表示されることがあります:

image

この問題を解決するには、より安定したリモート接続:直接 SSH 接続方法を使用して DSW インスタンスに接続することをお勧めします。

Q:VSCode でインスタンスにリモート接続した後、オンプレミスフォルダを開けないのはなぜですか?

この問題は通常、VSCode クライアントが原因です。オンプレミスファイルを DSW インスタンスにアップロードすることをお勧めします。具体的な操作については、「ファイルのアップロードとダウンロード」をご参照ください。

Q:直接 SSH 接続の設定が「Failed to update private zone items: Failed to add zone」というエラーメッセージで失敗するのはなぜですか?

このエラーは、内部 DNS 解決サービスが有効になっていないために発生します。このサービスを有効にすることができます。詳細については、「内部 DNS 解決の有効化」をご参照ください。

ネットワークの問題

Q:ネットワークのダウンロード速度が遅い問題を解決するにはどうすればよいですか?

DSW および DLC インスタンスは、デフォルトで共有ゲートウェイを使用します。帯域幅制限のため、大きなファイルをダウンロードする際にダウンロード速度がニーズを満たさない場合があります。したがって、ネットワークのダウンロード速度を向上させたい場合は、以下をご参照ください:

Q:DSW インスタンスにはパブリック IP アドレスがありますか?

DSW インスタンスには、デフォルトでパブリック IP アドレスは割り当てられません。インターネットにアクセスしたり、外部から DSW インスタンスにアクセスさせたりするには、NAT Gateway を設定するか、EIP (Elastic IP Address) を使用することをお勧めします。詳細については、「ネットワーク設定」をご参照ください。

Q:DSW インスタンスが NAT Gateway を介してパブリックネットワークに公開されている場合、パブリックネットワークポートは重複できますか?

DSW カスタムサービスを使用して外部にインターフェイスを提供する場合、複数のサービスが同じ NAT Gateway で設定されていると、その NAT Gateway を介してパブリックネットワークにアクセスするすべてのサービスのカスタムサービスポートは同じにできません。これには、異なる DSW インスタンスのカスタムサービスも含まれます。

Q:DSW インスタンスがパブリックネットワークにアクセスできないのはなぜですか?

DSW インスタンスは、デフォルトでPublic Gateway を介してパブリックネットワークにアクセスできます。パブリックネットワークにアクセスできない場合は、インスタンスの設定ページでInternet Access GatewayPrivate Gateway が選択されているかどうかを確認してください。専用ゲートウェイを選択した場合は、EIP (Elastic IP Address) と SNAT エントリを設定する必要があります。詳細については、「専用ゲートウェイを使用してパブリックネットワークアクセス速度を向上させる」をご参照ください。または、パブリックゲートウェイを選択することもできます。

image

Q:hugging face にアクセスすると「Network is unreachable」エラーが表示されるのはなぜですか?

DSW インスタンスで中国本土以外からモデル (huggingface.co のモデルなど) をプルする場合、クロスドメインのネットワーク問題によりアクセスできないことがあります。この問題を解決するには、Global Accelerator (GA) インスタンスを作成し、そのグローバルネットワークアクセラレーションサービスを使用して、DSW がモデルやイメージを取得するためのクロスドメインネットワークアクセス機能を有効にすることができます。詳細については、「中国以外からモデルやコンテナイメージをプルする」をご参照ください。

サードパーティライブラリのインストール

Q:DSW でサードパーティライブラリを使用するにはどうすればよいですか?

DSW はサードパーティライブラリのインストールをサポートしています。詳細については、「サードパーティライブラリの管理」をご参照ください。

Q:pip でインストールしたパッケージや作成したコードは、DSW インスタンスをシャットダウン (停止) した後も失われますか?

いいえ、システムディスクとしてクラウドディスクを使用している場合は失われません。インスタンスのディスクデータ (/mnt/workspace および /root 配下の環境を含む) は保持されます。次回インスタンスを起動すると、すべての環境とファイルはそのまま残っています。インスタンスを完全に削除した場合にのみ、すべてのデータがクリアされます。

Q:インストールしたサードパーティパッケージが有効にならないのはなぜですか?

pip コマンドでサードパーティパッケージをインストールした後、import コマンドでパッケージが見つからない場合は、まずサービスまたはカーネルを再起動してみてください。エラーが解決しない場合は、現在使用している環境を確認してください。サードパーティパッケージをインストールすると、DSW はデフォルトで Python 3 環境にインストールします。別の環境にインストールするには、まず手動で環境を切り替えてからインストールを実行する必要があります。例:

Python 2 環境にインストールします。
source activate python2
pip install --user xxx
TensorFlow 2.0 環境にインストールします。
source activate tf2
pip install --user xxx

ここで、xxx はインストールするサードパーティパッケージの名前に置き換える必要があります。

Q:DSW で pip install でパッケージをインストールすると、依存関係の競合やバージョンエラーで失敗したのはなぜですか?

これは通常、環境の非互換性が原因です。次の手順に従ってトラブルシューティングと解決を行ってください:

  1. イメージを変更する。これが推奨される解決策です。現在のインスタンスを停止し、新しい DSW インスタンスを作成して、別の公式イメージを選択します。たとえば、現在の PyTorch 2.1 イメージが機能しない場合は、PyTorch 2.3 イメージを試すか、通常は互換性が高い modelscope シリーズのイメージを試してください。

  2. 特定のバージョンをインストールする。パッケージの公式ドキュメントを参照して、現在の DSW 環境 (Python/CUDA バージョン) をサポートするバージョンを見つけ、pip install package_name==x.y.z を実行します。

  3. ダウンロードソースを変更する。清華大学ミラーなどの国内ミラーを試してください:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <yourLibraryName>

Q:DSW ターミナルでライブラリをインストールしましたが、Jupyter Notebook でインポートすると見つからないのはなぜですか?

これは、ターミナルと Jupyter が 2 つの異なる Python 環境を使用しているためである可能性があります。which python コマンドを実行して現在使用されている Python 環境を確認するか、Notebook に必要なライブラリをインストールできます。例:

image

Q:コードで CUDA ドライバーのバージョンが低すぎるというエラーが報告されます。DSW で NVIDIA ドライバーを手動でアップグレードする必要がありますか?

ドライバーのバージョンをアップグレードしないでください。DSW インスタンスのドライバーと CUDA はプリインストール済みでロックされています。手動で変更することはできず、また変更すべきではありません。変更すると、インスタンスが破損して回復不能になる可能性が非常に高くなります。正しいアプローチは、DSW イメージを変更することです。現在のインスタンスを停止し、新しいインスタンスを作成して、より高いバージョンの CUDA とドライバーを持つ公式イメージを選択します。

たとえば、公式イメージ:modelscope:1.9.4-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04。ここで、cu118 は CUDA バージョンが 11.8 であることを示します。

Q:DSW で Docker を使用してアプリケーションをデプロイできますか?

Lingjun リソースで Docker を使用するには、チケットを送信してホワイトリストに追加してもらう必要があります。Lingjun 以外のリソースの DSW インスタンスは、インスタンスコンテナ内で別の Docker インスタンスを実行することをサポートしていません。

Q:DSW インスタンスに unzip または 7z コマンドがありません。ファイルを解凍するにはどうすればよいですか?

apt-get コマンドを使用してインストールできます。

  • unzip のインストール:ターミナルで apt-get update && apt-get install -y unzip を実行し、unzip your_file.zip を使用します。

  • p7zip (7z 用) のインストール:ターミナルで apt-get update && apt-get install -y p7zip-full を実行し、7z x your_file.7z を使用します。

Q:サードパーティパッケージのインストールが常にスタックしたり、タイムアウトしたりするのはなぜですか?

サードパーティライブラリのインストールがスタックしたり、タイムアウトしたり、非常に遅い場合は、通常、ネットワークの問題です。次の手順に従ってトラブルシューティングと解決を行ってください:

ステップ 1:ネットワーク接続の確認

ターミナルで ping www.aliyun.com コマンドを実行して、インターネットにアクセスできるかどうかをテストします。ネットワークが切断されている場合は、次のステップに進んでネットワーク設定を確認します。

ステップ 2:ゲートウェイ設定の確認

インスタンス設定ページで、Internet Access Gateway タイプを表示します:

  • パブリックゲートウェイ:デフォルトでは、DSW インスタンスはPublic Gateway を使用してインターネットにアクセスします。インスタンス設定ページでゲートウェイタイプを確認できます。パブリックゲートウェイは帯域幅が限られているため、大きなファイルのダウンロード速度が不十分な場合があります。この場合、専用ゲートウェイを使用できます。

  • 専用ゲートウェイ:専用ゲートウェイは、より高速なネットワークアクセス速度を提供します。専用ゲートウェイを選択した後、VPC (仮想プライベートクラウド) にインターネット NAT Gateway を作成し、EIP (Elastic IP Address) をアタッチし、SNAT エントリを設定する必要があります。そうしないと、パブリックネットワークにアクセスできなくなります。詳細については、「専用ゲートウェイを使用してパブリックネットワークアクセス速度を向上させる」をご参照ください。

ステップ 3:pip ダウンロードソースの変更を試す

DSW はデフォルトで Alibaba Cloud ミラーソースを使用しますが、ピーク時やネットワークの変動により問題が発生する可能性があります。別の国内ミラーソースに切り替えることをお勧めします:

# 清華大学ミラーを使用してインストール (推奨)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn <yourLibraryName>

# USTC ミラーを使用してインストール
pip install -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host pypi.mirrors.ustc.edu.cn <yourLibraryName>

# Douban ミラーを使用してインストール
pip install -i https://pypi.doubanio.com/simple --trusted-host pypi.doubanio.com <yourLibraryName>

デフォルトの pip ソースを永続的に変更するには、「pip ソースの表示または変更」をご参照ください。

ステップ 4:オフラインインストールを使用する

ネットワークが完全に切断されているか、非常に不安定な場合は、オフラインインストール方法を使用できます:

  1. オンプレミスのコンピュータ (ネットワーク環境が良い) で、.whl 形式のインストールパッケージをダウンロードします:

    # オンプレミスのコンピュータで実行
    pip download <yourLibraryName> -d ./packages
  2. ダウンロードした .whl ファイルを DSW インスタンスにアップロードします。ファイルのアップロードについては、「ファイルのアップロードとダウンロード」をご参照ください。

  3. DSW でオフラインインストールを実行します:

    pip install /path/to/your-package.whl

Q:DSW WebIDE でルート権限を取得するにはどうすればよいですか?

ほとんどの公式 DSW イメージは、デフォルトで root ユーザーとして実行されます。ターミナルを開いたときにコマンドプロンプトが root@... であれば、すでにルートユーザーであることを意味します。pip インストール中に表示される「ルートユーザーとして実行することはお勧めしません」という警告は、安全に無視できます。イメージがルートとしてログインしていない場合は、これはイメージ自体の設定であり、ルートをサポートするイメージに切り替える必要があります。

Q:DSW で xserver を起動するにはどうすればよいですか?

DSW は xserver の起動をサポートしていません。

モデルのデプロイメント

Q:DSW で生成されたモデルをデプロイするにはどうすればよいですか?

  • EAS モデルデプロイメントサービスを使用する

    モデリングが完了したら、PAI-EAS を使用してモデルをオンラインサービスとしてデプロイできます。詳細については、「モデルをオンラインサービスとしてデプロイする」をご参照ください。

  • オンプレミスデプロイメント用にモデルをダウンロードする

    DSW で生成されたモデルを右クリックして、オンプレミスデバイスにダウンロードできます。

インスタンスの操作

Q:機械学習コードを実行しているとき、ページがしばらくアイドル状態になった後、なぜ再ログインを求められるのですか?

セキュリティ上の理由から、DSW のログインセッションは 3 時間有効です。有効期限が切れると、再度ログインする必要がありますが、これはタスクの実行には影響しません。タスクを長時間実行するには、DSW ターミナルで nohup コマンドを使用してバックグラウンドでタスクを実行することをお勧めします。

Q:DSW で実行中のトレーニングタスクは、ブラウザを閉じたり、コンピュータをシャットダウンしたりした後も継続されますか?

はい、継続されます。DSW インスタンスはクラウドで実行されており、オンプレミスデバイスを閉じても実行状態には影響しません。ただし、一部のインスタンス、特に無料トライアルインスタンスには、アイドルシャットダウンポリシーが設定されている場合があることに注意してください。CPU や GPU などのインスタンスのリソースが一定期間、特定のしきい値を下回ったままである場合、システムはインスタンスがアイドル状態であると判断し、自動的に停止することがあり、タスクが中断されます。

Q:なぜDSWは Docker を起動できないのですか?

DSW 自体がコンテナ内で実行されているため、DSW は Docker のインストールをサポートしていません。対応する CUDA バージョンは基盤となる仮想マシンにプリインストール済みであり、変更できません。nvidia-smi を使用して対応する CUDA バージョンを表示できます。

Q:ターミナルでタブの自動補完などの bash 機能がないのはなぜですか?

一部のイメージには使用制限があるため、ターミナルで手動で bash と入力し、Enter キーを押して bash 関連の機能を開始する必要があります。image.png

Q:DSW で AI 開発を行っているときに、DSW インスタンスタイプが要件を満たさない場合はどうすればよいですか?

次の手順で DSW インスタンスタイプを更新できます:

  1. DSW インスタンスリストで、インスタンス名をクリックしてインスタンスの詳細ページに移動します。

  2. Instance Settings タブで、Change Settings をクリックします。

  3. Change Instance Settings パネルで、インスタンスタイプを更新します。

    説明

    DSW インスタンスタイプを更新する際、インスタンスが実行中の場合、更新操作はすぐにインスタンスを再起動します。インスタンス内のコンテンツを保存していることを確認してください。

Q:メモリ使用量が高いです。解放するにはどうすればよいですか?

imageメモリ使用量が高く、通常の操作に影響する場合は、次の 2 つの方法のいずれかで問題を解決できます。

  • メモリ使用量が高いためにコマンドラインを使用できない場合は、右上隅のStop Instance をクリックします。または、DSW コンソールに戻り、インスタンスの行にあるStop をクリックします。インスタンスが停止するのを待ってから、再度起動します。

  • まだコマンドラインと対話できる場合は、インスタンスのターミナルで top コマンドを入力して、現在のすべてのプロセスのメモリ使用量を確認できます。%MEM は占有メモリの割合を示し、PID はプロセス ID を示します。image

    大量のメモリを占有しているプロセスを終了したい場合は、コマンドラインに次のように入力します:

    kill PID

    PID は終了したいプロセスの PID に置き換える必要があります。コマンドを実行すると、メモリ使用量が減少したことがわかります。image

Q:実行時に「RuntimeError: CUDA error: too many resources requested for launch」というエラーが表示されるのはなぜですか?

原因:このエラーは、CUDA カーネルが要求したリソースが利用可能なリソースを超えていることを示します。このエラーは通常、GPU のハードウェア制限に関連しています。

解決策:インスタンスを再起動してプログラムを再実行してみてください。それでもうまくいかない場合は、より高い仕様の GPU インスタンスを選択する必要があります。

Q:DSW がメモリ不足になったときに、スワップ領域を作成して仮想メモリを使用できますか?

DSW 自体はコンテナであり、スワップ領域の作成や管理をサポートしていません。

理由は次のとおりです:

  • 権限の制限:コンテナのカーネル権限は制限されており、スワップファイルをマウントできません。コンテナ内でルート権限を取得しても、ホストのリソースポリシーをバイパスすることはできません。

  • プラットフォームポリシー:プラットフォームは、マルチテナント環境の安定性とセキュリティを確保するために、リソースを統一的にスケジュールおよび制限します。

提案:メモリが不足している場合は、コードを最適化するか、インスタンスタイプをスペックアップしてください。