このトピックでは、オンライン予測サービスに関するよくある質問 (FAQ) について説明します。
サービスのデプロイと異常ステータス
サービスをデプロイした後、[概要] ページの [サービスインスタンス] リストでサービスインスタンスのステータス、ログ、イベントを表示して問題を特定できます。
Q:サービスが長時間 Waiting 状態のままです。どうすれば解決できますか?
デプロイ後、サービスはリソースのスケジューリングとサービスインスタンスの起動を待つ間、Waiting 状態になります。すべてのサービスインスタンスが正常に起動すると、サービスは Running 状態になります。考えられる原因は次のとおりです。
Q:サービスが Failed 状態です。どうすれば解決できますか?
サービスは、次の 2 つのシナリオで Failed 状態になります。
サービスデプロイ中:モデルパスなど、指定されたリソースが存在しない場合、デプロイは失敗します。エラーの原因はサービスのステータス情報に表示され、これを使用して失敗の理由を特定できます。
サービス起動中:サービスがデプロイされ、リソースにスケジュールされた後、起動に失敗します。この場合、ステータスメッセージ
Instance <network-test-5ff76448fd-h9dsn> not healthy: Instance crashed, please inspect instance log.が表示されます。このステータスメッセージは、サービスインスタンスの起動に失敗したことを示します。具体的な原因を特定するには、サービスの [概要] ページの [サービスインスタンス] リストで、失敗したインスタンスのステータスを確認する必要があります。インスタンス障害の考えられる原因は次のとおりです。
起動中にメモリ不足 (OOM) エラーが発生したため、サービスインスタンスがシステムによって終了されました。この場合、サービスに割り当てられているメモリを増やし、サービスを再デプロイする必要があります。次の図は、インスタンスのステータスを示しています。

起動中のコードエラーにより、サービスがクラッシュすることがあります。この場合、[最終ステータス] は Error となり、エラーコードが表示されます。インスタンスの [操作] 列にある [ログ] ボタンをクリックしてサービスログを確認し、障害の原因を特定します。次の図は、インスタンスのステータスを示しています。

サービスイメージのプルに失敗しました。詳細については、「Q:イメージのプルに失敗した場合 (ImagePullBackOff) はどうすればよいですか?」をご参照ください。
Q:イメージのプルに失敗した場合 (ImagePullBackOff) はどうすればよいですか?
サービスインスタンスリストの [最終終了理由] に ImagePullBackOff と表示されている場合、イメージのプルに失敗した可能性があります。[ステータス] 列に次のアイコンが表示されている場合は、それをクリックして具体的な原因を表示できます。

イメージのプルに失敗する一般的な原因は次のとおりです。
失敗の原因 | 考えられるエラー | ソリューション |
システムディスクの容量不足 |
| |
ACR のアクセスの制御が構成されていない |
| イメージのパブリックエンドポイントを使用する場合は、「ACR のパブリックアクセスを有効にする」必要があります。 イメージの内部エンドポイントを使用する場合:
|
EAS ネットワーク構成の問題 |
| イメージのパブリックエンドポイントを使用する場合は、「EAS のインターネットアクセスを構成する」必要があります。 |
認証情報がない、または正しくない |
| ACR Enterprise Edition インスタンスがパブリックな匿名プル用に構成されておらず、インターネット経由で別のリージョンからイメージをプルする場合、デプロイ時にイメージリポジトリのユーザー名とパスワードを構成する必要があります。認証情報を取得する方法の詳細については、「アクセス認証情報を構成する」をご参照ください。 |
イメージリポジトリと EAS サービスのリージョンに基づいて、次の推奨事項に従ってください。
同じリージョン:内部 URL を使用してイメージをプルします。
異なるリージョン:ACR Personal Edition の場合、パブリックイメージ URL を使用する必要があります。ACR Enterprise Edition の場合、次のいずれかのオプションを選択します。
セキュリティと安定性に対する要件が高い場合は、内部イメージ URL を使用します。Cloud Enterprise Network (CEN) を使用して VPC を接続する必要があります。詳細については、「異なるリージョンまたは IDC から ACR Enterprise Edition インスタンスにアクセスする」をご参照ください。
ビジネスシナリオが単純であるか、内部ネットワークをすぐに接続できない場合は、一時的な解決策としてパブリックイメージ URL を使用します。インターネット経由のダウンロードは遅くなることに注意してください。
ACR Enterprise Edition インスタンスに関する次の点に注意してください。
必要に応じて、VPC とインターネットのアクセスの制御を構成します。
リポジトリが匿名のイメージプルを許可していない場合、インターネット経由で別のリージョンからイメージをプルするときに、EAS でイメージリポジトリのユーザー名とパスワードを指定する必要があります。
Q:EAS サービスが停止後に自動的に再起動する
問題の説明:EAS サービスは、停止後しばらくすると自動的に再起動します。
原因:
これは、サービスに Auto Scaling が構成されており、インスタンスの最小数が 0 に設定されているために発生します。トラフィックがない期間が続くと、インスタンスの数は自動的に 0 にスケールインされます。インスタンスが利用できないときにリクエストが到着すると、構成されたスケールアウトのメトリックしきい値を満たしていなくても、スケールアウトが自動的にトリガーされます。
デプロイイベントの Auto Scaling の説明に基づいて、スケールアウトが自動的にトリガーされたかどうかを判断できます。
ソリューション:
サービスが不要になった場合は、削除できます。
サービスを削除したくない場合は、コンソールで [停止] をクリックするか、
StopServiceAPI 操作を呼び出すことで手動で停止できます。手動で停止したサービスは、着信トラフィックによって自動的にスケールアウトされません。弾性スケーリングによってサービスが自動的に停止されないようにするには、インスタンスの最小数を 0 に設定しないでください。
予期しないトラフィックがスケールアウトをトリガーするのを防ぐために、必要に応じて Auto Scaling を無効にすることもできます。
Q:PAI-EAS 起動エラー:IoError(Os { code: 28, kind: StorageFull, message: "No space left on device" })
問題の説明:
PAI-EAS は起動時に次のエラーを報告します。
[2024-10-21 20:59:33] serialize_file(_flatten(tensors), filename, metadata=metadata)
[2024-10-21 20:59:33] safetensors_rust.SafetensorError: Error while serializing: IoError(Os { code: 28, kind: StorageFull, message: "No space left on device" })
[2024-10-21 20:59:35] time="2024-10-21T12:59:35Z" level=info msg="program stopped with status:exit status 1" program=/bin/sh
原因:EAS インスタンスのシステムディスクにモデルファイルが多すぎるため、ディスクがいっぱいになり、サービスが正常に起動できなくなっています。
ソリューション:
ソリューション 1:EAS インスタンスのシステムディスクを拡張します。
ソリューション 2:モデルファイルが大きすぎる場合は、Object Storage Service (OSS) や NAS などの外部ストレージに保存し、ストレージマウントを使用して読み取ります。
Q:デプロイエラー:fail to start program with error: fork/exec /bin/sh: exec format error
exec format error は、オペレーティングシステムがターゲットプログラムファイルを実行できないことを示します。最も一般的な原因は、実行可能ファイルまたはコンテナイメージの CPU アーキテクチャがホストシステムのアーキテクチャと互換性がないことです。
別のリソース仕様に切り替えてみてください。
Q: エラー: 無効な GPU 数 6、サポートされているのは [0 1 2 4 8 16] のみです
複数の GPU 間の通信効率を最大化するために、単一のサービスインスタンスに指定する GPU の数は 2 のべき乗である必要があります。
0、1、2、4、8、または 16 個の GPU を割り当てることができます。
リソースに関する問題
リソースの使用量と制限
Q:EAS サービスのデプロイ時に 1 コア、2 GB のリソース構成を選択できないのはなぜですか?
問題を未然に防ぐため、1 コア、2 GB のリソース仕様は利用できなくなりました。EAS は各マシンノードにシステムコンポーネントをデプロイし、これらのコンポーネントはマシンリソースの一部を消費します。マシンの仕様が小さすぎると、システムコンポーネントが占有するリソースの割合が高くなり、サービスで利用できるリソースの割合が減少します。
Q:EAS にデプロイできるサービスの最大数はいくつですか?
EAS にデプロイできるサービスインスタンスの最大数は、利用可能なリソースによって異なります。コンソールのリソースグループのマシンリストでリソース使用量を確認できます。詳細については、「EAS リソースグループの使用」をご参照ください。
CPU コアの数に基づいてインスタンスを割り当てる場合、デプロイできるインスタンスの最大数は (ノードの CPU コアの総数 - 1) / 各インスタンスが使用するコアの数です。
Q:4090 グラフィックカードと同等の計算能力を持つ EAS の仕様は何ですか?
ecs.gn8ia-2x.8xlarge 仕様は、4090 グラフィックカードと同様のパフォーマンスを備えています。
Q:特定のリソース構成でデプロイされたモデルの最大同時実行数はどのくらいですか?
モデルサービスの最大同時実行数は、モデル、シナリオ、リソース構成など、複数の要因によって異なります。詳細については、「自動ストレステスト」をご参照ください。
専用リソースグループの管理
Q:専用リソースグループが常にスケールアウトする
これは通常、現在のリージョンでリソースが不足していることが原因です。サブスクリプションベースのマシンインスタンスの場合、リソース不足により作成が失敗すると、システムは自動的に返金注文を作成します。支払われた金額はアカウントに返金されます。
Q:専用リソースグループからサブスクリプションインスタンスを削除するにはどうすればよいですか?
Alibaba Cloud のサブスクリプションの解約ページに移動して、未使用のサブスクリプションベースの EAS 専用マシンを解約します。ページで、次の手順を実行します。
[タイプ]を[一部返金]に設定します。
[製品名] を [EAS 専用マシンサブスクリプション] に設定します。
[検索] をクリックして、解約したいリソースを見つけます。次に、[操作] 列の [リソースの解約] をクリックし、コンソールの指示に従ってプロセスを完了します。
Q:EAS リソースグループのマシンを解約した後、サービスインスタンスのデータは保持されますか?
いいえ、サービスインスタンスのデータは保持されません。
システムディスクの管理
Q:システムディスクを拡張するにはどうすればよいですか?
サービスのシステムディスクは、次の 2 つの方法のいずれかで構成または拡張できます。
コンソールでの構成:サービスを作成または更新するときに、 に移動し、[システムディスク] のサイズを設定します。

JSON 構成:サービスの JSON 構成ファイルで、
metadataフィールドの下にあるdiskの値を変更します。"metadata": {"disk": "40Gi"}
専用リソースグループを使用する場合、構成されたシステムディスクサイズはノードのシステムディスクサイズを超えることはできません。より大きなシステムディスクが必要な場合は、現在のノードを解放し、より大きなシステムディスク仕様の新しいノードを購入する必要があります。
サービスの更新とスケーリング
Q:EAS のスケーリングポリシーには何がありますか?
ビジネスニーズに基づいて、水平オートスケーリングまたはスケジュールスケーリングのスケーリングポリシーを選択できます。
水平オートスケーリングを選択した場合、秒間クエリ数 (QPS) や CPU 使用率などのカスタムメトリックに基づいて構成できます。これらのメトリックの計算方法と構成方法については、「水平オートスケーリング」をご参照ください。
メトリックの変動による頻繁なスケーリングを防ぐため、システムはしきい値に 10% の許容範囲を適用します。たとえば、QPS のしきい値を 10 に設定した場合、スケールアウトは通常、QPS が一貫して 11 (10 × 1.1) を超えた場合にのみトリガーされます。これは、次のことを意味します。
QPS が 10 から 11 の間で短時間変動した場合、システムはすぐにスケールアウトしない可能性があります。
スケールアウトは、QPS が一貫して 11 から 12 以上で安定している場合にのみトリガーされます。
このメカニズムは、不要なリソースの変更を減らし、システムの安定性とコスト効率を向上させるのに役立ちます。
Q:スケールアウトされたインスタンスはどこにありますか?
専用リソースグループを使用し、弾性リソースプールを構成している場合、専用リソースグループにノードリソースが利用できないときに、サービスはパブリックリソースを使用してスケールアウトします。
Q:サービスをスムーズに更新するにはどうすればよいですか?
問題の説明:更新中にサービスが中断されないようにする必要があります。専用リソースが不足している場合、サービスは一時的にパブリックリソースを使用して更新を完了する必要があります。更新後、インスタンスは専用リソースグループに再スケジュールされる必要があります。
ソリューション:ローリングアップデート、高優先度リソースの再スケジュール、および弾性リソースプールを組み合わせて使用する必要があります。
ローリングアップデートの構成:これにより、サービスが中断されないことが保証されます。 でローリングアップデートポリシーを構成します。詳細については、「ローリングアップデートとグレースフルシャットダウン」をご参照ください。

弾性リソースプールの有効化:これにより、専用リソースグループのリソースが不足している場合に、超過したインスタンスを従量課金のパブリックリソースグループにデプロイできます。詳細については、「弾性リソースプール」をご参照ください。
高優先度リソースの再スケジュールを有効にする:専用リソースグループに空きができた場合 (たとえば、古いインスタンスが破棄された場合)、システムはコストを節約するために、パブリックリソースグループから専用リソースグループにインスタンスを自動的に再スケジュールします。
サービスの呼び出しに関する問題
サービスの呼び出しエラー
返されたステータスコードに基づいてトラブルシューティングを行います。詳細については、「付録:サービスのステータスコードと一般的なエラー」をご参照ください。
HTTPS とカスタムドメイン名
Q:サービスは HTTPS 呼び出しをサポートしていますか?
はい。サービスエンドポイントの http:// を https:// に置き換えるだけで、暗号化された伝送が可能です。Python の requests などのクライアントが SSL 証明書の検証エラーを報告する場合、原因は通常、EAS サービス自体の問題ではなく、クライアント側の環境構成の問題です。
Q:HTTPS アクセスを強制するにはどうすればよいですか?
共有ゲートウェイ:強制 HTTPS をサポートしていません。
専用ゲートウェイ:強制 HTTPS をサポートしています。専用ゲートウェイの構成で [HTTPS リダイレクト] を有効にできます。有効にすると、すべての HTTP リクエストが自動的に HTTPS にリダイレクトされます。

Q:カスタムドメイン名を使用して呼び出すことはできますか?
はい。フルマネージド専用ゲートウェイを作成して使用し、ゲートウェイでカスタムドメイン名を設定する必要があります。詳細については、「専用ゲートウェイの使用」をご参照ください。
トークン管理
Q:トークンは有効期限が切れたり、変更されたりしますか?
いいえ。サービスがデプロイされた後に生成されるトークンは長期間有効です。手動で認証方式を変更しない限り、サービスの再起動、更新、またはスケーリングによってトークンが変更されることはありません。トークンを手動でリセットするか、サービスを削除した場合にのみ無効になります。
Q:1 つのサービスに対して複数のトークンを作成できますか?
いいえ。EAS サービスは 1 つの認証トークンのみをサポートします。マルチユーザーの権限管理や個別のメータリングを実装するには、Alibaba Cloud RAM 認証など、より柔軟なソリューションを使用することを推奨します。
その他の呼び出しに関する問題
Q:LLM サービスでストリーミング応答 (Streaming) を有効にするにはどうすればよいですか?
EAS サービス自体は、ストリーミング用のグローバルスイッチを提供していません。各 API 呼び出しのリクエストボディで、ストリーミング出力を希望することを明示的に指定する必要があります。たとえば、OpenAI 形式と互換性のある LLM サービスを呼び出す場合、JSON リクエストボディに "stream": true を追加します。
Q:VPC エンドポイント呼び出しと VPC 直接接続の違いは何ですか?
VPC エンドポイント呼び出し:このメソッドは、内部向け SLB とゲートウェイを使用します (パブリックエンドポイントはインターネット向け SLB とゲートウェイを使用します)。これは標準的なリクエストモデルです。このモデルでは、リクエストは SLB のレイヤー 4 とゲートウェイのレイヤー 7 を介して転送され、サービスインスタンスに到達します。高トラフィックかつ高同時実行のシナリオでは、この転送によりパフォーマンスのオーバーヘッドが発生します。ゲートウェイには帯域幅制限もあり、デフォルトでは 1 Gbps です。
VPC 直接接続:EAS は、追加コストなしでパフォーマンスと拡張性の問題に対処する高速な直接接続アクセスモードを提供します。VPC 直接接続を有効にすると、ご利用の VPC と EAS サービス VPC の間にネットワークパスが確立されます。リクエストは、EAS が提供するサービスディスカバリ機能を使用してサービスを特定し、クライアントから負荷分散されたリクエストを開始します。このプロセスでは、EAS が提供する SDK を使用し、endpoint_type を DIRECT に設定する必要があります。
たとえば、「Python SDK の使用方法」で説明されているシナリオでは、次のコード行を追加して、ゲートウェイ呼び出しから直接接続に切り替えることができます。
client = PredictClient('http://pai-eas-vpc.cn-hangzhou.aliyuncs.com', 'mnist_saved_model_example') client.set_token('M2FhNjJlZDBmMzBmMzE4NjFiNzZhMmUxY2IxZjkyMDczNzAzYjFi****') client.set_endpoint_type(ENDPOINT_TYPE_DIRECT) # 直接リンク client.init()
権限とネットワーク
Q:RAM ユーザーが EAS のサービスリンクロールを自動的に作成または削除できないのはなぜですか?
指定された権限を持つユーザーのみが AliyunServiceRoleForPaiEas を自動的に作成または削除できます。したがって、RAM ユーザーが AliyunServiceRoleForPaiEas を自動的に作成または削除できない場合は、RAM ユーザーに必要なアクセスポリシーを付与する必要があります。手順は次のとおりです。
次のポリシースクリプトを使用してカスタムポリシーを作成します。詳細については、「カスタム権限ポリシーの作成」をご参照ください。
前のステップで作成したカスタムポリシーをターゲットの RAM ユーザーに付与します。詳細については、「RAM ユーザーの権限の管理」をご参照ください。
Q:EAS サービス内からインターネットにアクセスするにはどうすればよいですか?
デフォルトでは、EAS サービスはパブリックインターネットにアクセスできません。パブリックインターネットにアクセスするには、EAS サービス用にインターネットアクセス機能を備えた VPC を構成する必要があります。詳細については、「EAS からパブリックまたはプライベートリソースにアクセスする」をご参照ください。
サービス管理
Q:EAS インスタンスは SSH ログインをサポートしていますか?
いいえ。マネージドサービスとして、EAS はコンテナにアクセスするための SSH 権限を提供しません。コンテナの起動時に特定のコマンドを実行するには、サービス構成の [実行コマンド] フィールドで指定できます。
Q:EAS サービスのステータスには何がありますか?
EAS サービスには次のステータスがあります。Elastic Algorithm Service (EAS) ページに移動して、[サービスステータス] 列を表示することもできます。
Creating:サービスを作成中です。
Waiting:サービスはインスタンスの起動を待機しています。
Stopped:サービスは停止しています。
Failed:サービスは失敗しました。
Updating:サービスを更新中です。インスタンスが更新されます。
Stopping:サービスを停止中です。
HotUpdate:サービスを更新中です。これはホットアップデートであり、インスタンスは更新されません。
Starting:サービスを起動中です。
DeleteFailed:サービスの削除に失敗しました。
Running:サービスは実行中です。
Scaling:サービスを更新中で、インスタンスをスケーリングしています。
Pending:サービスは特定のアクションを待機しています。
Deleting:サービスを削除中です。
Completed:タスクは完了しました。
Preparing
Q:どの RAM ユーザーがサービスを作成したかを確認するにはどうすればよいですか?
ActionTrail コンソールでイベントをクエリできます。イベント名を CreateService に設定します。詳細については、「ActionTrail コンソールでイベントをクエリする」をご参照ください。
Q:EAS の公式イメージをインターネットからダウンロードできますか?
いいえ。PAI の公式イメージは、内部プラットフォームのイメージです。PAI プラットフォームでのみ使用できます。プラットフォームのコンテナの外部からダウンロードすることはできません。
その他
Q:EAS サービスのデプロイ時に OSS バケットを選択できないのはなぜですか?
EAS サービスをデプロイするときに、マウントを使用してモデルとコードを構成できます。使用する OSS バケットと NAS ファイルシステムが EAS サービスと同じリージョンにあることを確認してください。そうでない場合、それらを選択することはできません。
Q:TensorFlow に関する問題
詳細については、「TensorFlow のよくある質問」をご参照ください。






