このトピックでは、PAI-Model Gallery でのモデルのデプロイとファインチューニングに関する一般的な質問に回答します。
Q: PAI-Model Gallery でのモデルの評価でディープシンキングが有効になっているかを確認するにはどうすればよいですか?
モデルの評価にディープシンキングが使用されているかどうかを判断するには、そのデフォルトのデプロイメント構成を確認する必要があります。この情報は、PAI-Model Gallery のモデルの説明ページで確認できます。すべてのモデルは、デフォルトのデプロイメント設定を使用して評価されます。
Q: PAI-Model Gallery でモデルをトレーニングした後、どのようにデプロイしますか?
[PAI-Model Gallery] > [タスク管理] に移動します。
完了したトレーニングタスクを見つけてクリックし、その詳細ページを開きます。
右上隅にある [デプロイ] ボタンをクリックします。

Q: PAI-Model Gallery で失敗したトレーニングタスクのトラブルシューティングを行うにはどうすればよいですか?
トレーニングタスクが失敗した場合、タスクの診断を確認するか、ログを表示することで原因を調査できます。失敗の一般的な原因は、データセットのフォーマットが正しくないことです。
エラーの詳細を確認するには、次の 2 つの方法があります。
タスク診断の確認: [PAI-Model Gallery] で、[タスク管理] > [トレーニングタスク] に移動します。失敗したタスクをクリックして、その [タスク詳細] ページを開きます。[失敗] ステータスにカーソルを合わせると、エラーの概要が表示されます。

タスクログの確認: [タスク管理] > [トレーニングタスク] で、[タスクログ] タブを選択して、完全なエラーメッセージを表示します。

次の表に、一般的なエラーメッセージとその解決策を示します。
エラの種類
エラーメッセージ
解決策
入出力エラー
ValueError: output channel ${your OSS uri} must be directory
トレーニング設定で指定された出力パスがファイルではなくディレクトリであることを確認してください。
ValueError: train must be a file
指定された入力パスがディレクトリではなくファイルを指していることを確認してください。
FileNotFoundError
指定された入力パスに有効なファイルが存在することを確認してください。
JSONDecodeError
入力 JSON ファイルのフォーマットが正しいことを確認してください。
ValueError: Input data must be a json file or a jsonl file!
入力ファイルが JSON または JSONL フォーマットであることを確認してください。
KeyError: ${some key name}
このエラーは、JSON データセットでよく発生します。モデルのドキュメントを確認し、データセット内のすべてのキーと値のペアが必要なフォーマットと一致していることを確認してください。
ValueError: Unrecognized model in /ml/input/data/model/.
モデルファイルは PyTorch が認識しないフォーマットです。
UnicodeDecoderError
入力ファイルの文字コードが正しいことを確認してください。
Input/output error
入力パスに対する読み取り権限と、出力パスに対する読み取り/書き込み権限があることを確認してください。
NotADirectoryError: [Errno 20] Not a directory:
指定された入力パスまたは出力パスがディレクトリであることを確認してください。
ハイパーパラメーター設定
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python (and there are no related subprocess logs)
インスタンスのメモリ (RAM) が不足しているため、モデルの読み込み時にメモリ不足 (OOM) エラーが発生します。より多くのメモリを持つインスタンスタイプを選択してください。
torch.cuda.OutOfMemoryError: CUDA out of memory
インスタンスの GPU メモリが不足しています。これを解決するには、より多くの VRAM を持つ GPU インスタンスタイプを選択するか、
lora_dimや
batch_sizeValueError: No closing quotation
system promptまたは別の文字列パラメーターに、閉じていない引用符 (
") が含まれているため、トレーニングコマンドが生成されません。すべての引用符が正しくペアになっていることを確認してください。
インスタンスタイプのリソース構成
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run
このエラーは精度の問題を示しています。モデルは BF16 フォーマットを使用しており、これには Ampere またはそれ以降のアーキテクチャ (例: A10, A100) を持つ GPU が必要です。古い GPU でトレーニングすると、パラメーターが FP16 に変換され、このアンダーフローエラーが発生する可能性があります。
RuntimeError: CUDA error: uncorrectable ECC error encountered
これは、基盤となる GPU インスタンスのハードウェアエラーを示しています。トレーニングタスクを再試行してください。再度失敗する場合は、別のインスタンスタイプまたはリージョンを試してください。
MemoryError: WARNING Insufficient free disk space
インスタンスのディスクがいっぱいです。より多くのディスク容量を持つインスタンスタイプを選択してください。
ユーザー制限エラー
failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold
これは、GPU クォータを超過したことを示します。デフォルトでは、トレーニングタスクは 2 つの同時 GPU に制限されています。実行中のタスクが完了するのを待つか、チケットを送信してクォータの増加をリクエストしてください。
Q: PAI-EAS でデプロイされたモデルのオンラインデバッグを実行するにはどうすればよいですか?
モデルが PAI-EAS (Elastic Algorithm Service) 上のサービスとして正常にデプロイされると、組み込みのオンラインデバッグツールを使用できます。
デプロイされたサービスの検索: [PAI-Model Gallery] > [タスク管理] > [デプロイメントタスク] に移動します。これにより、PAI-EAS コンソールにリダイレクトされ、デプロイされたサービスを表示できます。

オンラインデバッグツールを開く: PAI-EAS ページで、サービスを見つけます。[操作] 列で、[オンラインデバッグ] をクリックします。

リクエストの構成と送信:
まず、PAI-Model Gallery のモデルの説明ページで、必要なリクエストフォーマットを見つけます。たとえば、BladeLLM メソッドを使用してデプロイされたモデルは、
/v1/chat/completionsのような特定のパスへの POST リクエストを期待し、定義された JSON 本文を持つ場合があります。

次に、オンラインデバッグ UI で、パス (例:
/v1/chat/completions) を [リクエスト URL] に追加します。
最後に、モデルの説明ページの例を使用して [リクエスト本文] を入力し、[リクエストを送信] をクリックします。
Q: PAI-EAS でデプロイされたモデルを呼び出すと、503 "no healthy upstream" エラーが発生するのはなぜですか?
503 Service Unavailable エラーとメッセージ no healthy upstream は、サービスインスタンスのリソースが不足しており、新しいリクエストを処理できないことを示します。

原因: インスタンスのリソース (CPU、メモリ、または GPU メモリ) が完全に利用されており、新しいリクエストを処理する容量がありません。
解決策: 正しいアクションは、リソースタイプによって異なります。
パブリックリソース: 共有リソースプールが一時的に過負荷になっています。オフピーク時間帯に再試行するか、モデルを別のリージョンまたは別のインスタンス仕様で再デプロイしてください。
専用リソース (EAS リソースグループ): リソースグループの規模が小さすぎます。グループに負荷を処理するのに十分な CPU、メモリ、および GPU メモリがあることを確認してください。ベストプラクティスとして、少なくとも 20% のリソースバッファーを維持してください。
Q: モデルのトレーニング中に "SupportsDistributedTraining false, please set InstanceCount=1" エラーが発生するのはなぜですか?
原因: このエラーは、選択されたモデルが分散トレーニングをサポートしていないにもかかわらず、タスクが複数のノード (
InstanceCount > 1) で実行するように構成されているために発生します。解決策: トレーニングタスクの構成で [ノード数] を
1に設定し、タスクを再起動します。