背景情報
大規模言語モデル (LLM) のパラメーターは指数関数的に増加しており、DeepSeekV3-671B のような一部のオープンソースモデルは 700 GB を超え、モデルの読み込み時間が効率的な推論の重大なボトルネックになっています。この課題は、特に次の 2 つの主要なシナリオで顕著です。
エラスティックスケールアウト: モデルの読み込み時間は、サービスのスケールアウトの俊敏性に直接影響します。
複数インスタンスのデプロイメント: 複数のインスタンスが Object Storage Service (OSS)、Apsara File Storage NAS (NAS)、または Cloud Parallel File System (CPFS) などのリモートストレージからモデルを同時にプルすると、ネットワーク帯域幅の競合が発生し、モデルの読み込みがさらに遅くなります。
これらの課題に対処するため、Platform for AI (PAI) 推論サービスはモデル重みサービス (MoWS) を導入しました。MoWS は、いくつかのコアテクノロジーを使用しています。
分散キャッシングアーキテクチャ: ノードメモリを使用して重みキャッシュプールを構築します。
高速転送: RDMA ベースの相互接続を使用して、低レイテンシーのデータ転送を実現します。
インテリジェントシャーディング: 整合性チェック付きの並列データシャーディングをサポートします。
メモリ共有: 単一マシン上の複数のプロセス間でゼロコピーの重み共有を可能にします。
インテリジェントプリフェッチ: アイドル期間中にモデルの重みをプロアクティブに読み込みます。
効率的なキャッシング: モデルシャードがインスタンス間で負荷分散されるようにします。
実際には、このソリューションは大規模なクラスターデプロイにおいて、大幅なパフォーマンス向上をもたらします。
従来のプルベースのメソッドと比較して、スケーリング速度が 10 倍向上します。
帯域幅使用率が 60% 以上向上します。
サービスのコールドスタート時間を数秒に短縮します。

MoWS は、複数のインスタンス間の帯域幅リソースを最大限に活用することで、高速で効率的なモデル重み転送を可能にします。モデルの重みをローカルにキャッシュするだけでなく、インスタンス間で共有します。大規模パラメーターモデルや大規模なインスタンスデプロイメントを含むシナリオでは、MoWS はサービスのスケールアウト効率と起動速度を大幅に向上させます。
使用方法
PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、[Elastic Algorithm Service (EAS)] をクリックします。
[サービスのデプロイ] をクリックし、次に [カスタムデプロイ] をクリックします。
[カスタムデプロイ] ページで、次の主要なパラメーターを設定します。その他のパラメーターの詳細については、「コンソールでのカスタムデプロイのパラメーター」をご参照ください。
[環境情報] > [イメージ設定] で、[Alibaba Cloud イメージ] を選択し、[vllm] イメージリポジトリから mows 識別子を持つイメージバージョンを選択します。

[リソース情報] セクションで、リソースタイプとして [EAS リソースグループ] または [リソースクォータ] を選択します。
[機能] セクションで、[モデル重みサービス (MoWS)] 機能を有効にし、次のパラメーターを設定します。

設定項目
説明
例
モデル重みパス
必須。モデルの重みのパス。パスは OSS、NAS、または CPFS のマウントパスにすることができます。
/mnt/data/llm_models/Qwen2-7B-Instruct/最大メモリ使用量
必須。単一インスタンスに対して MoWS が使用するメモリリソース。単位: GB。
200
CRC32 ファイルパス
オプション。モデル読み込み時のデータ検証用の crc32 ファイルを指定します。パスは [モデル重みパス] からの相対パスです。
ファイル形式は [crc32] [relative_file_path] です。
デフォルト値: "crc32.txt"。
crc32.txt
内容は次のとおりです。
3d531b22 model-00004-of-00004.safetensors 1ba28546 model-00003-of-00004.safetensors b248a8c0 model-00002-of-00004.safetensors 09b46987 model-00001-of-00004.safetensorsNIC タイプ
インスタンスが EIC アクセラレーションハードウェアを使用している場合は、EIC を選択します。
非 EIC NIC
パフォーマンス上の利点
Qwen3-8B モデルを使用したパフォーマンステストでは、MoWS は推論サービスの P99 コールドスタート時間を 235 秒から 24 秒に短縮し (89.8% の削減)、インスタンスのスケーリング時間を 5.7 秒に短縮しました (97.6% の削減)。

Qwen3-32B モデルを使用したパフォーマンステストでは、MoWS はコールドスタート時間を 953 秒から 82 秒に短縮し (91.4% の削減)、インスタンスのスケーリング時間を 17 秒に短縮しました (98.2% の削減)。
