MoE モデルのエキスパート並列化と Prefill-Decode 分離によるデプロイ - PAI

Mixture-of-Experts (MoE) モデルは、スパース活性化メカニズムを使用して計算コストを削減しつつ、数兆パラメーター規模を実現します。しかし、このアプローチは従来の推論デプロイメントに課題をもたらします。エキスパート並列化 (EP) は、MoE モデル向けに設計された分散戦略です。異なるエキスパートを別々の GPU にデプロイし、リクエストに対して動的ルートを使用します。このメソッドは GPU メモリのボトルネックを解決し、並列計算のパフォーマンスを向上させ、デプロイコストを大幅に削減します。このトピックでは、Platform for AI (PAI) の Elastic Algorithm Service (EAS) で MoE モデルのエキスパート並列化 (EP) と Prefill-Decode (PD) 分離を有効にして、より高い推論スループットとコスト効率を実現する方法について説明します。

ソリューションアーキテクチャ

Alibaba Cloud の Platform for AI (PAI) は、本番環境レベルの EP デプロイメントをサポートする Elastic Algorithm Service (EAS) を提供します。EAS は、PD 分離、大規模な EP、計算と通信の協調最適化、MTP などのテクノロジーを統合し、多次元共同最適化という新しいパラダイムを創出します。

メリット：

ワンクリックデプロイメント：EAS は、組み込みイメージ、オプションのリソース、実行コマンドを備えた EP デプロイメントテンプレートを提供します。これにより、複雑な分散デプロイメントがウィザード形式のプロセスに簡素化され、基盤となる実装を管理する必要がなくなります。
集約されたサービス管理：Prefill、Decode、LLM インテリジェントルーターなどのサブサービスのライフサイクルを、統合ビューから個別に監視、スケーリング、管理できます。

EP サービスのデプロイ

このセクションでは、DeepSeek-R1-0528-PAI-optimized モデルを例として使用します。この PAI 最適化モデルは、より高いスループットとより低いレイテンシーをサポートします。次の手順を実行します：

PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。
[推論サービス] タブで [サービスをデプロイ] をクリックします。[シナリオベースのモデルデプロイメント] セクションで [LLM デプロイメント] をクリックします。
[モデル設定] セクションで、パブリックモデル DeepSeek-R1-0528-PAI-optimized を選択します。

推論エンジンを vLLM に、デプロイメントテンプレートを [EP+PD Separation-PAI Optimized] に設定します。
Prefill サービスと Decode サービスのデプロイリソースを設定します。パブリックリソースまたはリソースクォータを選択できます。
- パブリックリソース：迅速な試用や開発テストに適しています。利用可能な仕様は ml.gu8tea.8.48xlarge または ml.gu8tef.8.46xlarge です。
- リソースクォータ：リソースの安定性と隔離を確保するために、本番環境で推奨されます。利用可能なリソース構成がない場合、このタイプは選択できません。
(オプション) パフォーマンスを最適化するためにデプロイパラメーターを調整します。
- インスタンス数：Prefill と Decode のインスタンス数を調整して、PD 比率を変更します。デプロイメントテンプレートのデフォルトのインスタンス数は 1 です。
- 並列化パラメーター：環境変数で、Prefill サービスと Decode サービスの EP_SIZE、DP_SIZE、TP_SIZE などの並列化パラメーターを調整できます。デプロイメントテンプレートでは、Prefill の TP_SIZE のデフォルト値は 8 に設定され、Decode の EP_SIZE と DP_SIZE のデフォルト値は 8 に設定されています。
  説明
  DeepSeek-R1-0528-PAI-optimized のモデルの重みを保護するため、プラットフォームは推論エンジンの実行コマンドを公開しません。重要なパラメーターは環境変数を使用して変更できます。
[デプロイ] をクリックし、サービスが開始するまで待ちます。このプロセスには約 40 分かかります。
サービスステータスを確認します。デプロイが完了したら、サービス詳細ページの [オンラインデバッグ] タブに移動して、サービスが正常に実行されているかどうかをテストします。
説明
API 呼び出しとサードパーティアプリケーションとの連携の詳細については、「LLM サービスの呼び出し」をご参照ください。
OpenAI フォーマットに従ってリクエストを作成します。URL パスに /v1/chat/completions を追加します。リクエストボディは次のとおりです：
```
{
    "model": "",
    "messages": [
        {
            "role": "user",
            "content": "Hello!"
        }
    ],
    "max_tokens": 1024
}
```
[リクエストの送信] をクリックします。応答ステータスが 200 で、モデルから正常な回答が返されれば、サービスは正しく実行されています。

EP サービスの管理

サービスリストページで、サービス名をクリックして詳細ページに移動し、詳細な管理を行います。このページでは、集約サービス全体、および Prefill、Decode、LLM インテリジェントルーターなどのサブサービスのビューが提供されます。
サービスの監視データとログを表示し、自動スケーリングポリシーを設定できます。