モデルのトレーニングが完了したら、Elastic Algorithm Service (EAS) を使用して、オンライン推論サービスまたは AI Web アプリケーションとして迅速にデプロイできます。EAS は異種リソースをサポートし、自動スケーリング、ワンクリックストレステスト、カナリアリリース、リアルタイムモニタリングなどの機能を組み合わせることで、高同時実行性のシナリオにおいて、より低コストで安定した継続的なサービスを実現します。
EAS の機能

課金
課金の概要
EAS を使用してサービスをデプロイする場合、計算リソース、システムディスク、専用ゲートウェイに対して課金される可能性があります。
計算リソース:パブリックリソース、専用リソース、Lingjun リソースが含まれます。
(オプション) システムディスク:無料枠を提供しており、パブリックリソースで作成された各インスタンスに 30 GB、専用リソースで作成された各インスタンスに 200 GB が含まれます。追加のシステムディスクには課金されます。
(オプション) 専用ゲートウェイ:デフォルトでは、無料の共有ゲートウェイが使用されます。セキュリティ分離、アクセス制御、またはカスタムドメイン名が必要な場合は、専用ゲートウェイを購入できます。専用ゲートウェイを使用するには、手動で設定する必要があります。
EAS は、次の課金方法を提供します。
従量課金:サービスの実行時間 (リクエスト数ではない) に基づいて課金されます。この課金方法は、不確実で変動する需要シナリオに適しています。
サブスクリプション:この課金方法はよりコスト効率が高く、長期的に安定したビジネスシナリオに適しています。
EAS は、無料でサービスをデプロイできる Stable Diffusion web UI Serverless Edition および ComfyUI Serverless Edition を提供します。サービスが呼び出されたとき、実際の推論時間に基づいて課金されます。
Elastic IP Address (EIP)、Object Storage Service (OSS)、File Storage NAS などの他の Alibaba Cloud サービスを使用する場合、料金が発生します。
詳細については、「Elastic Algorithm Service (EAS) の課金」をご参照ください。
使用ワークフロー
ステップ 1:事前準備
推論リソースをの準備
モデルサイズ、同時実行要件、予算に基づいて適切な EAS リソースタイプを選択します。専用 EAS リソースまたは Lingjun インテリジェント計算リソースは、使用前に購入する必要があります。リソースの選択と購入の詳細については、「EAS デプロイリソースの概要」をご参照ください。
モデルとコードファイルの準備
トレーニング済みのモデル、コードファイル、およびその他の依存関係を準備します。これらのファイルを Object Storage Service (OSS) などの指定されたクラウドストレージサービスにアップロードします。その後、ストレージマウントを使用してサービスデプロイに必要なデータにアクセスできます。
ステップ 2:サービスのデプロイ
デプロイツール:PAI-EAS コンソール、EASCMD コマンドライン、または SDK を使用してサービスをデプロイおよび管理できます。
コンソール:カスタムデプロイとシナリオベースのデプロイ方法を提供します。コンソールはユーザーフレンドリで、初心者に最適です。
EASCMD コマンドラインツール:サービスの作成、更新、表示などをサポートします。EAS デプロイに精通したアルゴリズムエンジニアに適しています。
SDK:大規模で統一されたスケジューリングと運用保守に適しています。
デプロイ方法:イメージベースのデプロイ (推奨) とプロセッサベースのデプロイをサポートします。違いについては、「デプロイの原則」をご参照ください。
ステップ 3:サービスの呼び出しとテスト
モデルを WebUI アプリケーションとしてデプロイ:コンソールからブラウザでインタラクティブページを開き、モデルの機能を直接体験します。
モデルを API サービスとしてデプロイします。
HTTP リクエストを オンラインサービスデバッグ を使用して送信し、推論機能が期待どおりに動作することを確認できます。
API を介して同期的または非同期的に呼び出しを行います。EAS は、共有ゲートウェイ、専用ゲートウェイ、高速ダイレクト接続を含む、複数のサービス呼び出し方法をサポートしています。
EAS に組み込まれている汎用ストレステストツールを使用して、デプロイされたサービスに対してワンクリックストレステストを実行します。これにより、負荷下でのサービスのパフォーマンスを評価し、推論能力を把握できます。ストレステストの詳細については、「自動ストレステスト」をご参照ください。
ステップ 4:サービスの監視とスケーリング
サービスが実行された後、サービス監視とアラートを有効にして、リソース使用状況、パフォーマンスメトリクス、潜在的な異常を把握し、サービスがスムーズに実行されるようにします。
水平またはスケジュールされた自動スケーリングを有効にして、オンラインサービスのコンピューティングリソースのリアルタイムで動的な管理を実現します。詳細については、「Auto Scaling」をご参照ください。
ステップ 5:非同期推論サービスの使用
Text-to-Image 生成やビデオ処理など、時間のかかるリクエストの場合は、非同期推論サービス を有効にします。キューサービスがリクエストを受信し、処理後、結果が出力キューに書き込まれます。その後、クライアントは非同期で結果を照会します。これにより、リクエストのバックログとデータ損失を防ぎ、システムのスループットを向上させます。EAS は、キューのバックログに基づいて自動スケーリングをサポートし、インスタンス数をインテリジェントに調整します。詳細については、「非同期推論サービス」をご参照ください。
ステップ 6:サービスの更新
推論サービスリストで、対象サービスの [Actions] 列にある [Update] をクリックして、サービスバージョンを更新します。
更新する際にサービスが一時的に中断され、リクエストが失敗する可能性があります。慎重に進めてください。
更新が完了したら、現在のバージョンをクリックして [Version Information] を表示するか、サービスバージョンを切り替えます。
クイックスタート
「Elastic Algorithm Service (EAS) のクイックスタート」をご参照ください。
シナリオ
FAQ
Q:専用リソースとパブリックリソースの違いは何ですか?
主な違いは、パフォーマンスの分離、コスト、および可用性の保証にあります。
パブリックリソース:コストが主な懸念事項であり、ある程度のパフォーマンスの変動が許容される開発、テスト、または小規模なアプリケーションに使用します。これらは共有リソースであるため、ピーク時にリソース競合が発生する可能性があります。
専用リソース:高い安定性とパフォーマンスを要求する本番レベルのコアビジネスアプリケーションに使用します。これらのリソースは物理的に隔離されているため、プリエンプションのリスクがありません。また、在庫が限られている特定のインスタンスタイプを確保するために、専用リソースを購入する必要もあります。
弾性リソースプール機能はハイブリッドアプローチを提供します。専用リソースが完全に利用されている場合、EAS は自動的にパブリックリソースにスケールアウトしてトラフィックスパイクを処理し、コストとサービスの安定性のバランスを取ります。
Q:自己管理の推論サービスではなく、EAS を使用する理由は何ですか?
EAS は、フルマネージドサービスのため、推論インフラのデプロイとメンテナンスの運用オーバーヘッドを軽減できます。
EAS を使用することで、以下のタスクをオフロードできます。
リソーススケジューリング、障害回復、およびリアルタイムモニタリング。
自動スケーリングやカナリアリリースなどの複雑な機能をゼロから実装すること。
これにより、チームはインフラ管理ではなくモデル開発に注力でき、運用保守コストを削減するとともに、市場投入までの期間 (Time-to-Market) を短縮できます。
Q:EAS サービスが失敗した場合、一般的なエラーをトラブルシューティングするにはどうすればよいですか?
一般的なデプロイおよびランタイムの問題の診断と解決に関する包括的なガイドについては、「EAS のよくある質問」をご参照ください。