すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:DSW FAQ

最終更新日:Dec 20, 2025

このトピックでは、DSW についてよく寄せられる質問への回答を提供します。

インスタンスの起動

Q: DSW インスタンスの起動に失敗します

トラブルシューティング: DSW インスタンス名をクリックします。エラーメッセージは [イベント] タブに表示されます。

image

一般的なエラーとそれに対応する解決策は次のとおりです:

  • リクエストしたリソースタイプ [ecs.******] が現在不足しています。他のリージョンまたは他のリソースタイプをお試しください

    • 原因: 選択したインスタンスタイプは現在のリージョンで在庫が不足しているため、インスタンスを作成できません。

    • 解決策: 後でもう一度インスタンスの作成を試みるか、別のインスタンスタイプまたはリージョンに切り替えることができます。

  • リソース使用量がデフォルトの制限を超えています。制限を引き上げるには、チケットシステムからお問い合わせください。

    • 原因: 各 Alibaba Cloud アカウントは、各リージョンで最大 2 × GPU の DSW インスタンスを作成することに制限されています。選択したインスタンスタイプがこの制限を超えると、作成は失敗します。

    • 解決策: クォータを増やすには、チケットを送信できます。

  • 指定されたゾーンでは、このリソースの販売が一時的に停止されています。リソース不足のリスクを回避するために、マルチゾーン作成機能を使用することをお勧めします。

    解決策: 次の操作を試して、リソース不足のリスクを回避できます。

    • 別のリージョンに切り替えます。

    • インスタンスタイプを調整します。

    • オフピーク時にインスタンスの起動を試みます。

  • CommodityInstanceNotAvailableError: 過去の長期延滞により、商品インスタンスがリリースされました。使用するには、新しいインスタンスを作成してください

    • 原因: 長期にわたる支払い遅延のため、インスタンスがシステムによってリリースされました。

    • 解決策: 新しいインスタンスを作成できます。

  • 現在の ECI インスタンスの課金は停止されていますが、関連リソースはまだクリーンアップ中です。

    • 原因: トライアルリソースはパブリックリソースです。ピーク時に DSW インスタンスを起動すると、起動に 30 分以上かかる場合があります。システムが 1 時間以内にリソースを取得できない場合、選択したインスタンスタイプが利用できないことを示すメッセージが表示されます。

    • 解決策: 次の操作を試すことができます。

      • リージョンを切り替えます。

      • インスタンスタイプを変更します。保留中のインスタンスのインスタンスタイプは変更できません。インスタンスを停止してからインスタンスタイプを変更する必要があります。

      • 営業時間外など、オフピーク時にインスタンスを使用します。

      • 上記のいずれの方法でも問題が解決しない場合は、ビジネス マネージャーにお問い合わせください。

  • クラスタリソースが完全に使用されています。後ほど、または他のリージョンでお試しください。

    • 原因: 現在の計算リソースは完全に占有されています。

    • 解決策: 次の操作を試すことができます。

      • リージョンを切り替えます。

      • インスタンスタイプを変更します。保留中のインスタンスのインスタンスタイプは変更できません。インスタンスを停止してからインスタンスタイプを変更する必要があります。

      • 営業時間外など、オフピーク時にインスタンスを使用します。

      • 上記のいずれの方法でも問題が解決しない場合は、ビジネス マネージャーにお問い合わせください。

  • 指定されたインスタンスの在庫がないため、ECI の作成に失敗しました。在庫切れのリスクを回避するために、マルチゾーン作成機能を使用することをお勧めします。

    原因: 指定された計算リソースの在庫がありません。

    解決策: 次の操作を試すことができます。

    • リージョンを切り替えます。

    • インスタンスタイプを変更します。保留中のインスタンスのインスタンスタイプは変更できません。インスタンスを停止してからインスタンスタイプを変更する必要があります。

    • 営業時間外など、オフピーク時にインスタンスを使用します。

    • 上記のいずれの方法でも問題が解決しない場合は、ビジネス マネージャーにお問い合わせください。

  • back-off 10s restarting failed container=dsw-notebook pod

    • 原因: システムディスクがいっぱいです。 システムディスクを拡張する必要があります。

      システムディスクの使用状況を表示するには:

      image

      image

    • 解決策: [構成の変更] をクリックしてシステムディスクを拡張します。

      image

      重要

      システムディスクを拡張した後、インスタンスが実行されているかどうかに関係なく、システムディスクの課金は継続されます。 DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。 インスタンスを削除する前に、必要なすべてのデータがバックアップされていることを確認してください。

  • vSwitch を持つ利用可能なゾーンの在庫がありません

    • 原因: DSW インスタンスに VPC が設定されています。VPC 内の vSwitch にはゾーンプロパティがあります。vSwitch を設定すると、計算資源の検索が vSwitch のあるゾーンに限定され、リソース不足を引き起こす可能性があります。

    • 解決策: DSW インスタンスの構成を変更し、VPC を空に設定できます。

      image

      説明

      VPC を使用する場合は、別のゾーンに切り替えて新しい vSwitch と DSW インスタンスを作成することをお勧めします。これにより、利用可能なリソースの範囲が広がり、リソース範囲が限定されることによる不足を防ぐことができます。

  • 「ワークスペースメンバーが見つかりません」というメッセージで起動に失敗しました

    解決策: ワークスペース管理者に連絡して、アカウントをワークスペースのメンバーとして追加してもらいます。

  • containerd コンテナの作成に失敗しました: アーカイブからレイヤーを準備できませんでした: アーカイブクォータの検証に失敗しました ...

    • 原因: 使用可能なディスク容量がインスタンスイメージに対して不足しています。

    • 解決策: インスタンス詳細ページに移動し、システムディスクをスケールアウトします。システムディスクをスケールアウトすると、その容量に基づいて追加料金が発生することに注意してください。

      image

起動失敗のその他の理由:

  • 支払い遅延による作成失敗

    アカウントに支払い遅延がある場合、DSW インスタンスを作成できません。バウチャーは支払い遅延の相殺には使用できません。ユーザーセンターにログインして、アカウントに支払い遅延があるかどうかを確認できます。

Q: DSW インスタンスの起動時に Python ファイルを実行できますか?

はい、DSW インスタンスを作成するか、インスタンス構成を変更するときに [カスタム起動スクリプト] を設定できます。

image

この機能を使用して、インスタンスの起動時に環境をカスタマイズしたり、初期化タスクを実行したりできます。カスタムスクリプトは、イメージとリソースの準備が完了した後、JupyterLab や Code Server などの開発者アプリケーションが起動する前に実行されます。

説明
  • カスタムスクリプトはインスタンスの起動時間を増加させ、3 分のタイムアウトがあります。スクリプトがタイムアウトしないように、カスタムスクリプトで大きなファイルのダウンロードやイメージのダウンロードなどの長時間実行タスクを実行しないでください。

  • インスタンスの起動後、カスタムスクリプトによって生成されたログは /var/log/user-command/ パスにあります。

Q: DSW インスタンスが見つかりませんか?

概要ページでは、異なるリージョンで作成されたさまざまなタイプのインスタンスを表示できます。リージョンを切り替えてインスタンスを見つけてみてください。

image

Q: DSW ページが異常または応答しない場合はどうすればよいですか?

空白のページ、Notebook の読み込みが続く、または Terminal がコマンドを受け付けないなどの問題は、通常、ローカル環境に関連しています。次のトラブルシューティング手順を試してください。

  1. ブラウザのキャッシュをクリアして、もう一度お試しください。

  2. ブラウザのシークレットモードまたはプライベートモードを使用してページにアクセスします。

  3. ネットワーク環境を変更します。たとえば、会社の内部ネットワークからモバイルホットスポットに切り替えて、ファイアウォールの制限を確認します。

  4. Chrome や Firefox など、別のブラウザを使用してみてください。

Q: ディスクをシステムディスクとして使用する DSW インスタンスが停止、再起動、インスタンスタイプ変更、またはイメージ置換された場合、システムディスク上のデータは失われますか?

クラウドディスクをシステムディスクとして使用する DSW インスタンスには、パブリックリソースグループで作成されたインスタンスと、システムディスクとして [ディスク] を選択した汎用リソースインスタンスが含まれます。これらのインスタンスのシステムディスク上のデータは次のように影響を受けます:

  • インスタンスの停止: データが失われる可能性があります。ディスクが拡張されておらず、インスタンスが 15 日以上停止したままである場合、データは削除され、回復できません。ディスクが拡張されている場合、またはインスタンスが 15 日以下停止している場合、データは失われません。

  • インスタンスの再起動: データは失われません。インスタンスが停止または再起動された後、pip を使用してインストールされたすべてのパッケージ、コードファイル、およびシステムディスク上のその他のデータは保持されます。

  • インスタンスタイプの変更: データは失われません。CPU、メモリ、GPU 構成などのインスタンスタイプを調整しても、システムディスク上のデータには影響しません。

  • イメージの置換: 一部のデータが失われる可能性があります。イメージを変更しても、マウントされたデータセットや OSS のデータには影響しません。ただし、システムディスク上のコンテンツはリセットされる可能性があります。したがって、イメージを変更する前にインスタンスデータを保存してください。たとえば、データをデータセットや OSS にコピーまたは移動できます。詳細については、「データセット、OSS、NAS、または CPFS のマウント」をご参照ください。

システムディスクとして [一時ストレージ] を使用する汎用リソースインスタンスの場合、AI リソースグループがサブスクリプションディスクで構成されているかどうかに関係なく、インスタンスが停止、再起動、または仕様やイメージが変更されると、システムディスク上のすべてのデータが失われます。

Q: パブリックリソースを使用して作成された DSW インスタンスは、15 日以上ログインされずにリリースされた場合、回復できますか?

パブリックリソースで作成された DSW インスタンスの場合、クラウドディスクのシステムディスクが拡張されておらず、インスタンスが 15 日以上連続して起動されていない場合、そのシステムディスクは自動的にクリアされ、回復できません。

インスタンスの停止、削除、およびリリース

Q: DSW インスタンスをリリースするにはどうすればよいですか?

DSW インスタンスリストページで、インスタンスの [停止] または [削除] をクリックします。

image

注: DSW インスタンスを作成するときにシステムディスクを拡張した場合、インスタンスが実行されているかどうかに関係なく、システムディスクの課金は継続されます。 DSW インスタンスのすべての課金を停止するには、インスタンスを削除する必要があります。

Q: DSW インスタンスが見つからないのはなぜですか?

インスタンスが見つからない場合は、別のリージョンとワークスペースに切り替えてみてください。

image

Q: 無料トライアルのリソースプランをリリースするにはどうすればよいですか?

無料トライアルリソースプランをリリースまたは停止する必要はありません。

Q: DSW インスタンスの課金を完全に停止するにはどうすればよいですか?「停止」と「削除」の違いは何ですか?

  • インスタンスの停止: この操作は、インスタンスの計算資源 (CPU/GPU) を解放し、コンピューティングの課金を一時停止します。: 拡張されたシステムディスクは引き続き課金されます。

  • インスタンスの削除: この操作は、インスタンスとそのすべてのリソース (システムディスクを含む) を永続的に削除します。関連するすべての課金が停止します。

選択方法:

  • 停止: 一時的にインスタンスを必要としないが、将来の使用のためにデータと環境を保持したい場合に使用します。

  • 削除: インスタンスが不要になり、すべての課金を停止したい場合にこれを使用します。 この操作を実行する前に、データをバックアップする必要があります。

Q: DSW インスタンスが「停止中」または「削除中」の状態でスタックし、操作が完了しないのはなぜですか?

システムがタスクを安全に終了し、状態を保存し、リソースを再利用する必要があるため、インスタンスの停止または削除には時間がかかります。インスタンスが長時間応答しない場合、一般的な理由は次のとおりです。

  • インスタンスに適切に終了していないプロセスがあります。

  • メモリ使用量が多いため、インスタンスがシャットダウンコマンドに応答できません。

この状況では、しばらく待ってからページを更新してください。インスタンスのステータスが [停止済み] に変わるはずです。

Q: DSW インスタンスを停止または削除した後、データとコードは失われますか?

データが保持されるかどうかは、操作とインスタンスのリソースグループタイプによって異なります。

  • インスタンスの停止:

    データ保持ポリシーはリソースグループタイプによって異なります。

    • システムディスクとしてクラウド [ディスク] を使用するほとんどの従量課金および汎用インスタンスでは、ディスクが拡張されておらず、インスタンスが 15 日以上停止している場合、データは削除され、回復できません。ディスクが拡張されているか、インスタンスが 15 日以下停止している場合、データは保持されます。

    • システムディスクとして一時ストレージを使用するインスタンス: データは一時ストレージに保存されます。インスタンスを停止するとデータは削除され、回復できません。

  • インスタンスの削除:

    システムディスク上のすべてのデータは完全に消去され、回復できません。 したがって、削除する前に、すべての重要なデータをバックアップする必要があります。

Q: 実行中の DSW インスタンスが自動的に停止するのはなぜですか?

インスタンスにはアイドル自動シャットダウンポリシーが設定されています。このポリシーはリソースを節約するために設計されており、無料トライアルインスタンスではデフォルトで有効になっています。

  • トリガー条件: インスタンスの CPU および GPU 使用率が 3 時間連続して設定されたしきい値を下回る。

  • 推奨される操作:

    • 手動停止: リソースの節約を確実にするために、使用していないときはインスタンスを手動で停止します。自動シャットダウンポリシーが毎回トリガーされるとは限りません。

    • ポリシーの変更: 長期タスクを実行するには、このポリシーを変更または無効にすることができます。 手順は次のとおりです。

      DSW 自動シャットダウンポリシーの変更

      1. ワークスペースの詳細ページに移動し、[ワークスペースの構成] > [スケジューリング構成] をクリックします。

        image

      2. DSW 構成エリアを見つけます。ここで、DSW シャットダウンポリシーと除外ポリシーを変更できます。

        image

Q: すべての DSW インスタンスを停止または削除しました。なぜまだ「実行中」と表示されたり、課金通知が届いたりするのですか?

次の一般的な理由を確認してください。

  • リソースプランとインスタンスを混同している。「実行中」のステータスは、インスタンスではなく、リソースプラン (「月あたり 250 課金時間」など) を指している可能性があります。リソースプランは有効期間内は常にアクティブであり、そのステータスはインスタンスとは無関係です。

  • 拡張されたシステムディスクはまだ課金されています。インスタンスを停止すると、コンピューティング料金のみが一時停止されます。拡張されたシステムディスクは、ストレージ料金が発生し続けます。

  • 課金に遅延があります。課金はリアルタイムではありません。リソースを使用してから数時間後に請求書が生成される場合があります。たとえば、午前中に発生した料金は、午後まで請求書に表示されない場合があります。

課金と請求書

Q: DSW はどのように課金されますか?インスタンスはオンになっているだけでコードを実行していないのに、なぜ課金されるのですか?

  • DSW は、サブスクリプションと従量課金方式をサポートしています。 必要に応じて課金方法を選択できます。 課金の詳細については、「DSW 課金」をご参照ください。

  • 従量課金は、インスタンスの実行時間に基づいて計算されます。 実行中のインスタンスは継続的に計算リソースを占有するため、コードが実行されていなくても、インスタンスが「実行中」状態である限り課金されます。

Q: DSW の請求書を表示するにはどうすればよいですか?

従量課金ユーザーの場合は、費用とコストページに移動して請求書の詳細を表示できます。 詳細については、「請求書の詳細を表示する」をご参照ください。

Q: DSW インスタンスを停止した後もアカウントに課金されるのはなぜですか?

インスタンスを停止した後も課金が継続される主な理由は、通常、次の 2 つです。

  • システムディスクの拡張: DSW インスタンスを作成するときにシステムディスクを拡張した場合、インスタンスが「停止」状態であっても、システムディスクのストレージ料金は引き続き発生します。

  • 課金の遅延: DSW が従量課金モードを使用している場合、請求書の生成と控除に一定の遅延があります。 受け取る課金通知は、インスタンスを停止した後の料金ではなく、インスタンスを停止する前の実際の使用量に対するものである可能性があります。

Q: DSW インスタンスに関連するすべての課金を完全に停止するにはどうすればよいですか?

  • DSW インスタンスのすべての課金を完全に停止するには、インスタンスを削除するのが最も徹底的な方法です。 インスタンスを削除するとデータは回復できないため、削除する前に必要なすべてのデータをバックアップしてください。

    image

  • 異なるワークスペースとリージョンに切り替えて、すべてのインスタンスが削除されていることを確認できます。

    image

Q: 従量課金の DSW インスタンスを 1 時間未満使用した場合、料金はどのように計算されますか?

従量課金制インスタンスの料金は、実際の使用分数に基づいて計算されます。 式は次のとおりです。 請求額 = (単価 / 60) × 実際のサービス期間 (分)

モデルのプル

Q: モデルのプル時にエラーが発生します: Failed to pull image "crpi-****-vpc.cn-hangzhou.personal.cr.aliyuncs.com/apo/cat:full"

DSW インスタンスを作成するときに、イメージアドレスを構成し、イメージリポジトリが非公開の場合は、イメージアドレスを入力するときにイメージリポジトリのユーザー名とパスワードを入力する必要があります。

image

イメージの使用

Q: イメージの作成時にエラーが発生します: insufficient capacity of ephemeral storage

原因: イメージを作成するときのサイズ確認ロジックは、システムディスクの残りの空き領域が書き込みレイヤーのサイズよりも大きいかどうかを確認することです。 空き領域が不足している場合、このエラーが報告されます。

解決策: DSW Terminal で df -h を実行して、ファイルシステムのディスク容量使用状況を表示します。overlay の使用量が /dev/vda4 の空き領域を超えていないことを確認します。超えている場合は、イメージを作成するときに [カスタム除外パス] を設定することで、この問題を解決できます。

image

image

Q: DSW で Docker イメージを使用するにはどうすればよいですか?

  • Docker イメージを使用して DSW インスタンスを起動する: Docker イメージを Alibaba Cloud Container Registry (ACR) にプッシュしてから、PAI ワークスペースのカスタムイメージに追加できます。 これにより、DSW インスタンスを作成するときに、対応するイメージを選択してインスタンスを起動できます。

  • 他のインスタンスを起動したり、モデルをデプロイしたりするために現在の DSW イメージ環境をパッケージ化するには、「DSW インスタンスイメージの作成」をご参照ください。

  • DSW クラウド IDE に Docker をインストールして使用する: パブリックリソースおよび一般計算資源で作成されたインスタンスは、DSW での Docker のインストールと使用をサポートしていません。Lingjun リソースはサポートしています。

Q: DSW イメージの作成が失敗したり、タイムアウトしたりするのはなぜですか?

  • イメージサイズが制限を超えている: DSW イメージを作成するとき、単一レイヤーイメージのデータ量は 10 GiB を超えてはなりません。超えると、ビルドは失敗します。イメージサイズを小さくすることをお勧めします。

  • リージョンの不一致: DSW インスタンスと Container Registry (ACR) インスタンスは同じリージョンにある必要があります。そうでない場合、イメージを作成するときに対応するイメージリポジトリが見つかりません。

  • システムディスク容量の不足: イメージを作成するときに、システムディスクの残りの空き領域がイメージレイヤーに書き込むデータのサイズよりも小さい場合、「insufficient capacity of ephemeral storage」エラーが報告されます。

  • ネットワークの問題: Personal Edition ACR インスタンスを使用する場合、イメージはインターネット経由でプッシュされます。イメージが大きい場合、ネットワークの変動や長い転送時間のために失敗することがあります。Enterprise Edition ACR インスタンスが DSW インスタンスと同じ VPC にアタッチされている場合、イメージは内部ネットワーク経由でプッシュでき、より高速で安定しています。

Q: 「イメージの作成」ボタンがグレー表示されている、またはイメージを作成するときにイメージリポジトリが見つからないのはなぜですか?

  1. インスタンスのステータスが正しくない: 「イメージの作成」機能は、「実行中」状態の DSW インスタンスでのみ使用できます。インスタンスが「停止済み」または他の状態の場合、ボタンはグレー表示され、使用できません。

  2. 前提条件が満たされていないか、設定が正しくない:

    • まず、DSW インスタンスと同じリージョンに ACR インスタンスを作成し、その中に名前空間とイメージリポジトリを作成する必要があります。

    • DSW インスタンスと ACR インスタンスが同じリージョンにあることを確認してください。

Q: イメージの作成時にエラーが発生します: Push image registry-vpc.cn-****.aliyuncs.com/****/lm-mirrors:**** Failed: Push container failed, Container Name: dsw-notebook

イメージを作成するときは、単一レイヤーイメージのデータ量が 10 GiB を超えないようにしてください。超えると、ビルドは失敗します。パブリックリソースグループの DSW インスタンスの場合、カスタム除外パスを設定して、特定のファイルまたはディレクトリを最終イメージから除外できます。または、OSS パスなどのストレージパスをマウントして、データを保存およびアクセスすることもできます。

image

システムディスクの拡張

Q: DSW インスタンスのシステム容量はどのくらいですか?ディスクがいっぱいになった場合はどうすればよいですか?

DSW インスタンスのファイルとデータはデフォルトでシステムディスクに保存され、一定量の無料クォータが提供されます。

  • 無料クォータの表示

    パブリックリソースグループで作成されたインスタンスには、100 GiB の無料クォータがあります。一般計算資源の場合、仕様要件を満たした後にのみ無料クォータ付きのシステムディスクが提供されます。Lingjun リソースは無料のクラウドディスクを提供しません。インスタンス構成ページのシステムディスクオプションで、具体的な無料ディスク容量サイズを表示できます。手順:

    1. インスタンスリストページでインスタンス名をクリックします。

    2. 右上隅にある [構成の変更] をクリックし、[システムディスク] セクションまでスクロールします。

    image

  • システムディスク使用量の表示

    DSW インスタンス名をクリックします。 [環境コンテキスト] 領域で、システムディスクの使用状況を表示できます。

    image

  • システムディスクがいっぱいになったときに拡張する方法

    システムディスクの容量の使用量が無料クォータを超えた場合は、システムディスクを拡張するか、データセットをマウントする ことができます。

Q: システムディスクはスケールインをサポートしていますか?

いいえ、サポートしていません。DSW システムディスクは、拡張後にスケールインすることはできません。以前に作成した DSW インスタンスのシステムディスク容量が大きすぎることがわかった場合は、データセット、OSS、NAS、または CPFS をマウントすることによって、インスタンス内の重要な情報を OSS にバックアップできます。その後、DSW インスタンスを削除して継続的な課金を回避し、ニーズに合わせて適切なシステムディスク容量を持つ新しい DSW インスタンスを作成できます。

マウント構成

Q: DSW インスタンスで独自のファイルシステムをマウントして使用するにはどうすればよいですか?

新しいインスタンスを作成するときに、OSS、NAS、CPFS、または Intelligent Computing CPFS をマウントできます。DSW Terminal を介してマウントディレクトリを入力し、ファイルを表示および使用できます。

現在、DSW は、インスタンスを作成するときに同じリージョン内のファイルシステムのマウントのみをサポートしています。詳細については、「DSW インスタンスの作成」をご参照ください。

Q: PAI-DSW で NAS データセットをマウントする際に、インスタンスの起動時にエラーが報告されます: 指定されたマウントポイント 3b79d4a2ac-xmk97.cn-shanghai.nas.aliyuncs.com は VPC vpc (VPC タイプのインスタンス) にありません

  • 原因: これは、NAS データセットを作成するときにマウントポイントを追加および構成することによって発生します。

  • 解決策: データセットを作成するときに、マウントポイントを空に設定します。

image

Q: ECS を使用して FTP を設定し、NAS にファイルをアップロードおよびダウンロードするときに、mount コマンドの実行時にエラーが報告されます: mount:wrong fs type,bad option,bad superblock

  • 現象の説明

  • 解決策

    mount コマンドを実行する前に、最初に nfs-utils パッケージをインストールします。

    yum install nfs-utils

Q: OSS データセットをマウントした後、マウントされたディレクトリにアクセスするときに「Input/output error」が報告された場合、どのように解決すればよいですか?

image

この問題は、ロールに OSS アクセス権限 (AliyunPAIDLCAccessingOSSRole) が付与されていないことが原因です。詳細については、「PAI サービスアカウントの権限付与」をご参照ください。

Q: jindo を使用して OSS データセットをマウントするときに OOM (メモリ不足) のリスクを軽減するにはどうすればよいですか?

次の 2 つの方法で解決できます。

  • 方法 1: メモリ使用量が最適化された Jindo バージョン 6.8.1 を使用します。

    {
        "fs.jindo.fuse.pod.image.tag":"6.8.1"
    }

    image

  • 方法 2:ossfs を使用します。

    タスクを送信するときに、次のように指定します。

    {
        "mountType": "ossfs"
    }

    image

    次の構成で readdirplus 最適化を無効にすることで、フォルダの内容を一覧表示するときのメタデータキャッシュの使用量を削減し、OOM 問題を最大限に軽減できます。

    {
        "mountType": "ossfs",
        "fs.ossfs.args": "-oreaddirplus=false" // readdirplus 最適化を無効にする
    }

Q: OSS を正常にマウントしましたが、JupyterLab インターフェイスの左側のファイルブラウザに表示されないのはなぜですか?

これは、DSW ファイルブラウザがデフォルトでインスタンスの作業ディレクトリを表示するためです。通常は /mnt/workspace です。 OSS をマウントするときに指定したマウントパス (たとえば、/mnt/data) はデフォルトの作業ディレクトリにないため、左側のファイルリストに直接表示されません。

解決策:

  • コードを介してアクセスする: ファイルは実際に正常にマウントされています。 コードでは、完全なマウントパスを使用してアクセスする必要があります。たとえば、open('/mnt/data/my_file.csv') のようにします。

  • マウントポイントを変更する: UI でファイルを見やすくするには、マウントを構成するときに、マウントパスを作業ディレクトリのサブディレクトリに設定します。たとえば、/mnt/workspace/my_oss_data のようにします。 マウントが完了すると、ファイルブラウザの my_oss_data フォルダに OSS ファイルが表示されます。

  • ターミナルからアクセスする: DSW ターミナルで cd /mnt/data コマンドを使用してマウントディレクトリに移動し、ls などのコマンドを使用してファイルを表示および操作できます。

Q: マウントされた OSS を使用しているときに、プログラムが「Transport endpoint is not connected」または「Input/output error」を報告しますか?

このエラーは、DSW インスタンスと OSS 間のマウント接続が切断されたことを示します。考えられる原因とトラブルシューティング方法は次のとおりです。

  1. RAM ロールの権限の問題: DSW インスタンスに設定されている RAM ロールに OSS へのアクセス権限 (例: AliyunPAIDLCAccessingOSSRole) が付与されているかどうかを確認します。権限が不十分な場合、OSS から読み取れないことがよくあります。

  2. マウントサービスのリソース不足: 高強度のランダム読み書き操作や多数の小規模ファイル操作を実行すると、マウントを担当する ossfs または JindoFuse プロセスがメモリ不足 (OOM) でクラッシュすることがあります。マウントの詳細設定で、メタデータキャッシュを無効にするか、メモリ設定を増やすことができます。詳細については、「JindoFuse」をご参照ください。

  3. 接続の復元:

    • 起動時のマウントの場合、復元する最も簡単な方法は DSW インスタンスを再起動することです。システムは自動的にマウントを再実行します。

    • PAI SDK を使用して動的マウントコマンドを実行し、インスタンスを再起動せずにパスを再マウントすることもできます。

Q: DSW はどのタイプのデータのマウントをサポートしていますか?Alibaba Cloud Drive や MaxCompute テーブルを直接マウントできますか?

DSW は、データセットを作成するか、パスを直接マウントすることにより、OSS、NAS、CPFS などのクラウドストレージサービスの使用をサポートしています。

  • Alibaba Cloud Drive はサポートされていません: 現在、DSW は個人の Alibaba Cloud Drive の直接マウントをサポートしていません。処理が必要なデータは OSS に保存することをお勧めします。

  • MaxCompute テーブルのマウントはサポートされていません: MaxCompute (旧称 ODPS) テーブルデータは、ファイルシステムのように DSW ディレクトリに直接「マウント」することはできません。PAI が提供する SDK または API を介して、DSW コードで読み書きできます。詳細については、「PyODPS を使用して MaxCompute テーブルを読み書きする」をご参照ください。

Q: DSW インスタンスがシャットダウンまたは削除された後、コードとデータは失われますか?データの永続性と移行を実現するにはどうすればよいですか?

DSW インスタンスのシステムディスクは一時ストレージです。パブリック リソースグループの場合、インスタンスが 15 日以上停止するとデータは消去されます。専用リソースグループの場合も、インスタンスが停止または削除されるとシステムディスクのデータは消去されます。

データとコードの永続ストレージを実現し、異なるインスタンス間でそれらを移行するには、外部マウント ストレージを使用する必要があります。

  • 永続化ソリューション: 重要なデータ、コード、モデルをすべて、マウントされた OSS または NAS パスに保存します。このようにすることで、DSW インスタンスが削除された場合でも、すべてのアセットは自分の OSS または NAS に安全に保存されたままになります。

  • 移行ソリューション: ある DSW インスタンスから別の DSW インスタンスにデータを移行する必要がある場合は、新しいインスタンスでこのデータを含む同じ OSS または NAS パスをマウントするだけです。これが最も便利なデータ移行方法です。

Q: マウントが成功した後、作業ディレクトリのファイルが OSS に表示されないのはなぜですか?

作業ディレクトリのファイルが OSS に表示されないのは、パスの不一致が原因です。OSS のデフォルトのマウントパスは /mnt/data ですが、DSW のデフォルトの作業ディレクトリは /mnt/workspace です。次のコマンドを使用して、作業ディレクトリから /mnt/data にファイルをコピーできます。ファイルは OSS で表示されるようになります。

cp -r /mnt/workspace/. /mnt/data/

データの読み取り、アップロード、およびダウンロード

Q: DSW を使用して OSS データを読み取るにはどうすればよいですか?

Python SDK または API を使用して OSS データを読み取ることができます。詳細については、「Object Storage Service (OSS) のデータの読み取りと書き込み」をご参照ください。

Q: フォルダをアップロードおよびダウンロードするにはどうすればよいですか?

現在、DSW はフォルダの直接のアップロードとダウンロードをサポートしていません。ただし、フォルダを圧縮ファイルにパッケージ化することで、フォルダをアップロードおよびダウンロードできます。 DSW ターミナルは、targzipunzip などの標準 Linux コマンドラインツールを使用してファイルを解凍できる Linux 環境を提供します。 tar を使用した例を次に示します。

  1. tar --version を使用して、tar がインストールされているかどうかを確認します。インストールされていない場合は、次のコマンドを使用してインストールできます。

    # Debian ベースのシステム(Ubuntu など)のインストールコマンド
    sudo apt install tar
    
    # Red Hat ベースのシステム(CentOS、Fedora など)のインストールコマンド
    sudo yum install tar
  2. フォルダを解凍します。

    # フォルダを圧縮します。/path/to/directory は圧縮するフォルダです
    tar -cvf archive_name.tar /path/to/directory
    
    # フォルダを解凍します
    tar -xvf archive_name.tar

Q: 2 つの DSW インスタンス間でデータを転送および共有するにはどうすればよいですか?

次の 2 つの方法を使用できます。

Q: 「ダウンロード」をクリックしても応答がない、またはダウンロードに失敗した場合はどうすればよいですか?

これは通常、ネットワーク輻輳またはブラウザの問題が原因です。次の手順を試すことができます。

  1. しばらくお待ちください。大きなファイルは、ダウンロードに時間がかかります。

  2. ブラウザを変更するか、ブラウザのシークレットモードを使用して再試行します。

  3. 大きなファイル(200 MB を超えるファイルなど)の場合、またはネットワークが不安定な場合は、OSS をマウントしてダウンロードすることをお勧めします。

Q: 「ファイル転送ステーション」の容量が不足しているというメッセージが表示された場合はどうすればよいですか?

ファイル転送ステーションの合計容量は 10 GB です。転送ステーション管理ページに移動し、転送ステーションのファイルをクリアする ことで容量を解放する必要があります。ページがすぐに更新されない場合は、ブラウザを更新してみてください。

Q: アップロード時に常に「ファイル転送ステーション」にジャンプするのはなぜですか?

これは正常です。アップロードの安定性と速度を確保するために、10 MB を超えるすべてのファイルは自動的にファイル転送ステーション経由で転送され、完了時にインスタンスに保存されます。

Q: 大きなオンプレミスファイル (5 GB を超えるモデルなど) や大量のデータを DSW にアップロードして使用するにはどうすればよいですか?

DSW インスタンスのシステムディスク容量は限られており、一時的なストレージです。大きなファイルや大量のデータを直接アップロードすることはお勧めしません。最初にデータを Alibaba Cloud Object Storage Service (OSS) にアップロードしてから、DSW インスタンスにマウントして使用できます。詳細については、「データセット、OSS、NAS、または CPFS をマウントする」をご参照ください。

リモート接続

Q: ProxyClient で DSW インスタンスに接続すると、切断エラーが報告されます: client_loop: send disconnect: Broken pipe

SSH を使用して DSW インスタンスに接続する場合、長時間操作がないと切断がトリガーされ、システムから次のメッセージが表示されることがあります。

image

この問題を根本的に解決するには、より安定した リモート接続: 直接 SSH 接続 メソッドを使用して DSW インスタンスに接続することをお勧めします。

Q: VSCode を使用してインスタンスにリモート接続した後、オンプレミスフォルダを開けませんでした

この問題は、一般的に VSCode クライアントが原因です。オンプレミスファイルをクラウド内の DSW にアップロードすることをお勧めします。具体的な操作については、「ファイルのアップロードとダウンロード」をご参照ください。

Q: SSH 直接接続構成が次のエラーで失敗します: Failed to update private zone items: Failed to add zone?

このエラーは、内部 DNS 解決サービスが有効になっていないことが原因です。「内部 DNS 解決を有効にする」の手順に従ってこのサービスを有効にできます。

ネットワークの問題

Q: ネットワークのダウンロード速度が遅い問題を解決するにはどうすればよいですか?

DSW インスタンスと DLC インスタンスはデフォルトで共有ゲートウェイを使用するため、大きなファイルのダウンロード速度は帯域幅制限のためにニーズを満たせない場合があります。したがって、ネットワークのダウンロード速度を向上させたい場合は、次の内容を参照してください。

Q: DSW インスタンスにはパブリック IP アドレスがありますか?

DSW インスタンスには、デフォルトでパブリック IP アドレスは割り当てられません。外部ネットワークにアクセスしたり、外部から DSW インスタンスへのアクセスを許可したりするには、NAT Gateway を設定するか、EIP を使用することをお勧めします。詳細については、「ネットワーク設定」をご参照ください。

Q: DSW インスタンスが NAT ゲートウェイを介してパブリックアクセスを公開する場合、パブリックポートは重複できますか?

DSW カスタムサービスを使用してインターフェイスを公開する場合、同じ NAT Gateway を共有するすべてのカスタムサービスは、異なる DSW インスタンスにあっても一意のポートを使用する必要があります。

Q: DSW インスタンスがインターネットにアクセスできないのはなぜですか?

デフォルトでは、DSW インスタンスは [パブリックゲートウェイ] を使用してインターネットにアクセスします。インターネットにアクセスできない場合は、インスタンス設定ページで [インターネットアクセスゲートウェイ][専用ゲートウェイ] が選択されているかどうかを確認します。専用ゲートウェイが選択されている場合は、Elastic IP アドレスと SNAT エントリを設定する必要があります。詳細については、「専用ゲートウェイによるパブリックネットワークアクセス速度の向上」をご参照ください。または、パブリックゲートウェイを選択することもできます。

image

サードパーティライブラリのインストール

Q: DSW でサードパーティライブラリを使用する方法

DSW は、サードパーティライブラリのインストールをサポートしています。DSW ターミナルで次のコマンドを入力して、インストールを完了できます。

#Python 3 バージョン
pip install --user xxx
#Python 2 バージョン
source activate python2
pip install --user xxx

xxx をサードパーティライブラリの名前に置き換えます。ライブラリがインストールされたら、[カーネルの再起動] をクリックしてサービスを再起動します。

Q: インストールしたサードパーティパッケージが有効にならないのはなぜですか?

pip コマンドを使用してサードパーティパッケージをインストールした後、import コマンドを使用してインポートするときにパッケージが見つからない場合は、サービスの再起動を試みてください。エラーが解決しない場合は、現在の環境を確認してください。デフォルトでは、DSW はサードパーティパッケージを Python 3 環境にインストールします。別環境にパッケージをインストールするには、まず手動で環境を切り替える必要があります。次に例を示します。

Python 2 環境にサードパーティライブラリをインストールします。
source activate python2
pip install --user xxx
TensorFlow 2.0 環境にサードパーティライブラリをインストールします。
source activate tf2
pip install --user xxx

xxx をインストールするサードパーティパッケージの名前に置き換えます。

Q: コードで CUDA ドライバのバージョンが低すぎると報告されます。DSW で NVIDIA ドライバを手動でアップグレードする必要がありますか?

ドライバーのバージョンをアップグレードしないでください。DSW インスタンスのドライバーと CUDA はプリインストール済みでロックされています。これらを手動で変更することはできず、またすべきでもありません。インスタンスが簡単に破損し、回復不能になる可能性があるためです。正しい方法は、DSW イメージを置き換えることです。現在のインスタンスを停止し、新しいインスタンスを作成し、CUDA とドライバーのバージョンが高い公式イメージを選択します。

たとえば、公式イメージは modelscope:1.9.4-pytorch2.0.1tensorflow2.13.0-gpu-py38-cu118-ubuntu20.04 です。ここで、cu118 は CUDA バージョン 11.8 を表します。

Q: DSW で pip install を使用してパッケージをインストールできませんでした。依存関係の競合またはバージョンエラーが報告されました。どうすればよいですか?

これは通常、互換性のない環境が原因です。次の順序でトラブルシューティングして解決してください。

  1. 推奨される解決策:イメージを置き換えます。現在のインスタンスを停止し、新しい DSW インスタンスを作成し、別の公式イメージを選択します。たとえば、現在の PyTorch 2.1 イメージが機能しない場合は、PyTorch 2.3 イメージを試すか、通常は互換性が高い modelscope シリーズのイメージを試すことができます。

  2. 特定のバージョンをインストールします。パッケージの公式ドキュメントを確認し、現在の DSW 環境(Python/CUDA バージョン)をサポートするバージョンを見つけ、pip install package_name==x.y.z を実行します。

  3. ダウンロードソースを変更します。清華大学ソースなどの国内ミラーを使用してみてください。pip install -i https://pypi.tuna.tsinghua.edu.cn/simple package_name

Q: DSW ターミナルにライブラリを明確にインストールしましたが、Jupyter Notebook でインポートするときに見つからないのはなぜですか?

これは、ターミナルと Jupyter が 2 つの異なる Python 環境を使用していることが原因である可能性があります。which python コマンドを使用して、現在使用されている Python 環境を確認するか、Notebook に必要なライブラリをインストールします。次に例を示します。

image

Q: DSW で Docker を使用してアプリケーションをデプロイできますか?

Lingjun リソースで Docker を使用するには、チケットを送信してホワイトリストに追加してもらうことができます。Lingjun リソースではない DSW インスタンスの場合、インスタンスコンテナー内で Docker を実行することは現在サポートされていません。

Q: DSW インスタンスに unzip または 7z コマンドがありません。ファイルを解凍するにはどうすればよいですか?

apt-get コマンドを使用してインストールできます。

  • unzip をインストールします。ターミナルで apt-get update && apt-get install -y unzip を実行し、unzip your_file.zip を使用します。

  • p7zip(7z 用)をインストールします。ターミナルで apt-get update && apt-get install -y p7zip-full を実行し、7z x your_file.7z を使用します。

Q: DSW インスタンスをシャットダウン (停止) した後、pip でインストールしたパッケージと作成したコードは失われますか?

クラウドディスクがシステムディスクとして使用されている場合、失われません。インスタンスのディスクデータ ( /mnt/workspace および /root の環境を含む) は保持されます。次回インスタンスを起動すると、すべての環境とファイルはそのまま残ります。インスタンスを削除すると、すべてのデータが完全にクリアされます。

Q: pip を使用しているときにインストールがスタックしたりタイムアウトしたりするのはなぜですか?

これはネットワークの問題である可能性があります。

  1. インスタンスがインターネットアクセス用に構成されているかどうかを確認します。インスタンスの作成時に「インターネットアクセスなし」を選択した場合、または NAT ゲートウェイを設定せずに VPC を構成した場合は、外部ダウンロードソースに接続できません。

  2. ダウンロードソースの変更を試みます。たとえば、デフォルトの Alibaba ソースから清華大学ソースに変更します。pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package_name>

  3. ネットワークが機能しない場合は、自分のコンピューターで .whl 形式のインストールパッケージをダウンロードし、DSW にアップロードしてオフラインインストールを実行できます。

Q: DSW WebIDE で root 権限を取得するにはどうすればよいですか?

ほとんどの DSW の公式イメージは、デフォルトで root ユーザーとして実行されます。ターミナルを開いたときに、コマンドプロンプトが root@... の場合は、すでに root であることを意味します。pip インストール中に表示される警告メッセージ「root ユーザーとして実行することはお勧めしません」は無視しても安全です。イメージが root としてログインしない場合、これはイメージ自体の設定であり、root をサポートするイメージに切り替える必要があります。

Q: DSW で xserver を起動するにはどうすればよいですか?

DSW は xserver の起動をサポートしていません。

モデルデプロイ

Q: DSW で生成されたモデルをデプロイするにはどうすればよいですか?

  • EAS モデルデプロイサービスを使用する

    モデリングが完了したら、PAI-EAS を使用してモデルをオンライン サービスとしてデプロイできます。詳細については、「モデルをオンライン サービスとしてデプロイする」をご参照ください。

  • オンプレミスデプロイ用にモデルをダウンロードする

    DSW によって生成されたモデルを右クリックして、オンプレミス デバイスにダウンロードできます。

インスタンスの実行

Q: 機械学習コードを実行しているときに、一定期間アイドル状態になった後、ページで再ログインを求められるのはなぜですか?

セキュリティ上の理由から、DSW ログインセッションは 3 時間有効です。有効期限が切れた後は、再度ログインする必要がありますが、タスクの実行には影響しません。タスクを長時間実行するには、nohup コマンドを使用して、DSW ターミナルでタスクをバックグラウンドで実行することをお勧めします。

Q: ブラウザを閉じたり、コンピュータをシャットダウンしたりした後、DSW で実行中のトレーニングタスクは続行されますか?

はい、続行されます。DSW インスタンスはクラウドで実行され、オンプレミスデバイスを閉じても実行状態には影響しません。ただし、一部のインスタンス、特に無料トライアルインスタンスは、アイドル自動シャットダウンポリシーで設定されている場合があることに注意してください。インスタンスの CPU、GPU、およびその他のリソースが一定期間、特定のしきい値を下回ったままである場合、システムはそれをアイドル状態と判断し、自動的に停止してタスクを中断することがあります。

Q: DSW が Docker を起動できないのはなぜですか?

DSW 自体がコンテナー内で実行されているため、DSW は Docker のインストールをサポートしていません。対応する CUDA バージョンは、基盤となる仮想マシンにプリインストールされており、変更できません。nvidia-smi を使用して、対応する CUDA バージョンを表示できます。

Q: ターミナルにタブのオートコンプリートなどの bash 機能がないのはなぜですか?

一部のイメージには使用制限があるため、ターミナルで bash を手動で入力し、Enter キーを押して bash 関連の機能を起動する必要があります。image.png

Q: DSW での AI 開発中に DSW インスタンスの仕様が要件を満たしていないことがわかった場合、どのように解決しますか?

次の手順に従って、DSW インスタンスの仕様を更新できます。

  1. DSW インスタンスリストで、インスタンス名をクリックしてインスタンスの詳細ページに移動します。

  2. [インスタンス構成] タブで、[構成の変更] をクリックします。

  3. [インスタンス構成の変更] パネルで、インスタンスの仕様を更新できます。

    説明

    DSW インスタンスの仕様を更新するときに、インスタンスが実行されている場合、更新操作によってインスタンスがすぐに再起動されます。インスタンスの内容を保存したことを確認してください。

Q: メモリ使用量が高いです。解放するにはどうすればよいですか?

imageメモリ使用量が高すぎて通常の使用に影響する場合は、2 つの方法で解決できます。

  • メモリ使用量が高いためにコマンドラインが応答しなくなった場合は、右上隅の [インスタンスの停止] をクリックします。または、DSW コンソールに戻り、インスタンスの行にある [停止] ボタンをクリックします。インスタンスが停止するのを待ってから再起動します。

  • インスタンスのコマンドラインを介して操作できる場合は、インスタンスのターミナルに top コマンドを入力して、現在のすべてのプロセスのメモリ使用量情報を表示できます。 %MEM は占有されているメモリの割合を表し、PID はプロセス ID を表します。image

    メモリ使用量が多いプロセスを終了する場合は、コマンドラインに次のように入力します。

    kill PID

    PID を終了するプロセスの PID に置き換える必要があります。実行すると、メモリ使用量が減少するのがわかります。image

Q: 実行時にエラーが報告されます: RuntimeError: CUDA error: too many resources requested for launch

原因: このエラーが発生した場合、CUDA カーネルによって要求されたリソースが使用可能なリソースを超えていることを示します。このエラーは通常、GPU のハードウェア制限に関連しています。

解決策: インスタンスを再起動してプログラムを再実行してみてください。それでも機能しない場合は、より高い仕様の GPU インスタンスを選択する必要があります。

Q: DSW がメモリ不足になったときに、スワップ領域を作成して仮想メモリを使用できますか?

いいえ、できません。DSW 自体はコンテナーであり、スワップ領域の作成や管理をサポートしていません。

理由は次のとおりです。

  • 権限の制限: コンテナーのカーネル権限は制限されているため、スワップファイルをマウントできません。コンテナーで root 権限を取得しても、ホストのリソースポリシーをバイパスすることはできません。

  • プラットフォームポリシー: プラットフォームは、マルチテナンシー環境の安定性とセキュリティを確保するために、リソースを一元的にスケジュールおよび制限します。

推奨事項: メモリが不足している場合は、コードを最適化するか、インスタンスタイプをスペックアップしてください。