すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:エキスパート並列化と Prefill-Decode 分離を使用した MoE モデルのデプロイ

最終更新日:Nov 28, 2025

Mixture-of-Experts (MoE) モデルは、スパース活性化メカニズムを使用して計算コストを削減しつつ、数兆パラメーター規模を実現します。しかし、このアプローチは従来の推論デプロイメントに課題をもたらします。エキスパート並列化 (EP) は、MoE モデル向けに設計された分散戦略です。異なるエキスパートを別々の GPU にデプロイし、リクエストに対して動的ルートを使用します。このメソッドは GPU メモリのボトルネックを解決し、並列計算のパフォーマンスを向上させ、デプロイコストを大幅に削減します。このトピックでは、Platform for AI (PAI) の Elastic Algorithm Service (EAS) で MoE モデルのエキスパート並列化 (EP) と Prefill-Decode (PD) 分離を有効にして、より高い推論スループットとコスト効率を実現する方法について説明します。

ソリューションアーキテクチャ

Alibaba Cloud の Platform for AI (PAI) は、本番環境レベルの EP デプロイメントをサポートする Elastic Algorithm Service (EAS) を提供します。EAS は、PD 分離、大規模な EP、計算と通信の協調最適化、MTP などのテクノロジーを統合し、多次元共同最適化という新しいパラダイムを創出します。

image.png

メリット

  • ワンクリックデプロイメント:EAS は、組み込みイメージ、オプションのリソース、実行コマンドを備えた EP デプロイメントテンプレートを提供します。これにより、複雑な分散デプロイメントがウィザード形式のプロセスに簡素化され、基盤となる実装を管理する必要がなくなります。

  • 集約されたサービス管理:Prefill、Decode、LLM インテリジェントルーターなどのサブサービスのライフサイクルを、統合ビューから個別に監視、スケーリング、管理できます。

EP サービスのデプロイ

このセクションでは、DeepSeek-R1-0528-PAI-optimized モデルを例として使用します。この PAI 最適化モデルは、より高いスループットとより低いレイテンシーをサポートします。次の手順を実行します:

  1. PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。

  2. [推論サービス] タブで [サービスをデプロイ] をクリックします。[シナリオベースのモデルデプロイメント] セクションで [LLM デプロイメント] をクリックします。

  3. [モデル設定] セクションで、パブリックモデル DeepSeek-R1-0528-PAI-optimized を選択します。

    image.png

  1. 推論エンジンを vLLM に、デプロイメントテンプレートを [EP+PD Separation-PAI Optimized] に設定します。

    image.png

  2. Prefill サービスと Decode サービスのデプロイリソースを設定します。パブリックリソースまたはリソースクォータを選択できます。

    • パブリックリソース:迅速な試用や開発テストに適しています。利用可能な仕様は ml.gu8tea.8.48xlarge または ml.gu8tef.8.46xlarge です。image.png

    • リソースクォータ:リソースの安定性と隔離を確保するために、本番環境で推奨されます。利用可能なリソース構成がない場合、このタイプは選択できません。

      image.png

  3. (オプション) パフォーマンスを最適化するためにデプロイパラメーターを調整します。

    • インスタンス数:Prefill と Decode のインスタンス数を調整して、PD 比率を変更します。デプロイメントテンプレートのデフォルトのインスタンス数は 1 です。

    • 並列化パラメーター環境変数で、Prefill サービスと Decode サービスの EP_SIZEDP_SIZETP_SIZE などの並列化パラメーターを調整できます。デプロイメントテンプレートでは、Prefill の TP_SIZE のデフォルト値は 8 に設定され、Decode の EP_SIZEDP_SIZE のデフォルト値は 8 に設定されています。

      説明

      DeepSeek-R1-0528-PAI-optimized のモデルの重みを保護するため、プラットフォームは推論エンジンの実行コマンドを公開しません。重要なパラメーターは環境変数を使用して変更できます。

      image.png

  4. [デプロイ] をクリックし、サービスが開始するまで待ちます。このプロセスには約 40 分かかります。

  5. サービスステータスを確認します。デプロイが完了したら、サービス詳細ページの [オンラインデバッグ] タブに移動して、サービスが正常に実行されているかどうかをテストします。

    説明

    API 呼び出しとサードパーティアプリケーションとの連携の詳細については、「LLM サービスの呼び出し」をご参照ください。

    OpenAI フォーマットに従ってリクエストを作成します。URL パスに /v1/chat/completions を追加します。リクエストボディは次のとおりです:

    {
        "model": "",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ],
        "max_tokens": 1024
    }

    [リクエストの送信] をクリックします。応答ステータスが 200 で、モデルから正常な回答が返されれば、サービスは正しく実行されています。

    image.png

EP サービスの管理

  1. サービスリストページで、サービス名をクリックして詳細ページに移動し、詳細な管理を行います。このページでは、集約サービス全体、および Prefill、Decode、LLM インテリジェントルーターなどのサブサービスのビューが提供されます。

    image.png

  2. サービスの監視データとログを表示し、自動スケーリングポリシーを設定できます。

    image.png