モデルファイルをメモリにキャッシュすることで、マウントされた OSS または NAS パスからの読み取りを高速化し、サービスの起動レイテンシーを短縮します。
仕組み
モデルキャッシュアクセラレーションは、2 つのキャッシュ方法をサポートしています。
-
ローカルキャッシュ:推論サービスのアイドルメモリを使用してモデルファイルをキャッシュし、ファイルシステムディレクトリとして公開します。スケールアウト中、同じサービスの複数のインスタンスが P2P ネットワークを形成します。新しいインスタンスは、OSS や NAS からフェッチする代わりに、既存のキャッシュを持つインスタンスからデータをプルします。
-
ローカルキャッシュ + キャッシュウォームアップ:専用のキャッシュウォームアップサービスでローカルキャッシュを強化し、モデルファイルをメモリにプリロードします。これにより、ローカルキャッシュだけでは解決できないコールドスタートの問題を解決します。
設定後、各推論サービスインスタンスは高速化パスをマウントします。アプリケーションは、コードを変更することなく、このパスからモデルファイルを読み取ります。モデルの読み込み優先度は次のとおりです。
-
コールドスタート:設定されている場合、キャッシュウォームアップサービスからデータをフェッチします。それ以外の場合は、OSS または NAS からデータをプルし、ローカルにキャッシュします。
-
スケールアウト:Least Recently Used (LRU) 削除ポリシーを使用するローカルキャッシュを優先します。キャッシュミスが発生した場合、キャッシュウォームアップサービスにフォールバックし、次に OSS または NAS にフォールバックします。
制限事項
-
高速化パスは、データ整合性を確保するために読み取り専用です。
-
新しいモデルファイルを追加するには、ソースパスに追加します。ファイルは自動的にキャッシュされ、高速化パス経由で利用可能になります。
-
ソースパス内のファイルを直接更新または削除しないでください。キャッシュが古いデータを提供してしまう原因となります。
ローカルモデルキャッシュの設定
カスタムデプロイ
-
PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、Elastic Algorithm Service (EAS) をクリックします。
-
Deploy Service をクリックします。Custom Model Deployment セクションで、Custom Deployment をクリックします。
-
次の主要なパラメーターを設定します。その他のパラメーターについては、「カスタムデプロイ」をご参照ください。
-
Environment Information セクションで、Mount storage を設定して、モデルファイルをコンテナディレクトリにマウントします。例えば、OSS からマウントする場合:
-
[Uri]:モデルファイルの OSS パス。例:
oss://path/to/models/Qwen3-8B/。 -
Mount Path:
/mnt/models/Qwen3-8B/など、ファイルがマウントされるコンテナ内のパスです。
-
-
Features セクションで、Distributed cache acceleration スイッチを有効にし、次のパラメーターを設定します。
パラメーター
説明
Maximum Memory Usage
キャッシュの最大メモリ (GB)。超過すると LRU 削除が適用されます。例:
20GB。Source Path
高速化するファイルのソースディレクトリ。OSS または NAS ストレージがコンテナにマウントされているマウントパスを入力します。
Accelerated Path
アプリケーションがモデルを読み取るためのローカルキャッシュパス。ソースパスとは異なる必要があります。例:
/mnt/models/Qwen3-8B-fast/。Model Cache Prefetch Service
(オプション) デプロイ済みのキャッシュウォームアップサービスを選択して、コールドスタート時間を短縮します。このオプションを使用するには、まずキャッシュウォームアップサービスをデプロイする必要があります。
-
Environment Information セクションで、Command to Run を変更して、モデルファイルパスをソースパスから高速化パスに変更します。例えば、LLM サービスをデプロイする場合:
vllm serve /mnt/models/Qwen3-8B-fast/
-
-
設定後、Deploy をクリックします。
JSON デプロイ
-
PAI コンソールにログインします。ページ上部でリージョンを選択します。次に、目的のワークスペースを選択し、EAS をクリックします。
-
Elastic Algorithm Service (EAS) ページで、Deploy Service をクリックします。Custom Model Deployment セクションで、JSON Deployment をクリックします。
-
JSON 設定を入力します。サンプル:
{ "cloud": { "computing": { "instances": [ { "type": "ecs.gn6e-c12g1.3xlarge" } ] }, "networking": { "security_group_id": "your-security-group-id", "vpc_id": "your-vpc-id", "vswitch_id": "your-vswitch-id" } }, "containers": [ { "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/vllm:0.11.2-py312-mows0.5.1", "port": 8000, "script": "vllm serve /mnt/models/Qwen3-8B/" } ], "metadata": { "cpu": 12, "disk": "30Gi", "gpu": 1, "instance": 1, "memory": 92000, "name": "vllm_test", "workspace_id": "your-workspace-id" }, "storage": [ { "mount_path": "/mnt/models/Qwen3-8B/", "oss": { "path": "oss://path/to/models/Qwen3-8B/", "readOnly": false } }, { "cache": { "capacity": "10G", "path": "/mnt/models/Qwen3-8B/", "cacheroot_service": "your-cacheroot-service" }, "mount_path": "/mnt/models/Qwen3-8B-fast/" } ] }次の表は、モデルキャッシュアクセラレーションに関連するパラメーターを説明しています。その他のパラメーターについては、「JSON デプロイ」をご参照ください。
パラメーター
説明
containers.script
モデルファイルパスをソースパス (OSS または NAS のマウントパス) から高速化パスに変更します。
storage[].cache
capacity
キャッシュの最大メモリ (GB)。超過すると LRU 削除が適用されます。
path
高速化するファイルのソースディレクトリ。OSS または NAS ストレージがコンテナにマウントされているマウントパスを入力します。
preload
サービス開始時にソースパスからすべてのファイルをキャッシュするには、
"/"に設定します。cacheroot_service
キャッシュウォームアップサービスの名前。
storage[].mount_path
ストレージオブジェクトのマウントパス。`cache` ブロック内では、これは高速化パスです。`oss` または `nas` ブロック内では、これはソースパスです。
-
Deploy をクリックします。
キャッシュウォームアップサービスのデプロイ
キャッシュウォームアップサービスは、モデルファイルをメモリにプリロードし、モデルキャッシュアクセラレーションが有効になっている推論サービスのための高速データソースとして機能します。
キャッシュウォームアップサービスによってマウントされた OSS パスは、推論サービスのキャッシュアクセラレーション設定でソースパスとして使用される OSS パスと一致する必要があります。一致しない場合、キャッシュウォームアップは有効になりません。
例えば、推論サービスのキャッシュアクセラレーションのソースパスが /mnt/models/Qwen3-8B/ で、これが OSS パス oss://path/to/models/Qwen3-8B/ に対応する場合、キャッシュウォームアップサービスも oss://path/to/models/Qwen3-8B/ をマウントする必要があります。
-
Inference Service タブで、Deploy Service をクリックします。Scenario-based Model Deployment セクションで、Model Warm-up Cache Service Deployment をクリックします。
-
次の主要なパラメーターを設定し、Deploy をクリックします。
パラメーター
説明
Basic Information
Deployment
モデルファイルを保持するのに十分なメモリを持つインスタンスタイプを選択します。
Cache Configuration
Cache Path
キャッシュするモデルディレクトリ。複数のパスがサポートされています。
Maximum Memory Usage
キャッシュウォームアップサービスの最大メモリ。
Network Information
VPC
必須。推論サービスと同じ VPC である必要があります。そうでない場合、推論サービスはキャッシュウォームアップサービスにアクセスできません。
Associate NLB
有効にする必要があります。デフォルトで NLB が自動的に作成されます。
パフォーマンスベンチマーク
モデルキャッシュアクセラレーションのベンチマーク結果です。実際の結果は異なる場合があります。
Qwen3-32B
モデル:Qwen3-32B (62 GB)
マシン:ml.gu8is.c64m512.4-gu60 | 64 コア 512 GB + 4× GU60(48G) | L20
|
デプロイモード |
モデル読み込み時間 |
モデル読み込み速度 |
サービス準備完了時間 |
|
標準 (キャッシュアクセラレーションなし) |
01:05 |
7.63 Gbit/s |
01:43 |
|
コールドスタートアクセラレーション (キャッシュウォームアップあり) |
00:21 |
23.62 Gbit/s |
01:01 |
|
スケールアウトアクセラレーション (ローカルキャッシュあり) |
00:18 |
27.55 Gbit/s |
00:58 |
MiniMax-M2
モデル:MiniMax-M2 (215 GB)
マシン:ml.gu8tf.8.40xlarge | 160vcpu+1800 GB + 8*GU8T | H20(96G)
|
デプロイモード |
モデル読み込み時間 |
モデル読み込み速度 |
サービス準備完了時間 |
|
標準 (キャッシュアクセラレーションなし) |
06:42 |
4.28 Gbit/s |
09:16 |
|
コールドスタートアクセラレーション (キャッシュウォームアップあり) |
01:49 |
15.78 Gbit/s |
04:49 |
|
スケールアウトアクセラレーション (ローカルキャッシュあり) |
01:42 |
16.86 Gbit/s |
04:34 |
DeepSeek-V3.2
モデル:DeepSeek-V3.2 (643 GB)
マシン:ml.gu8tef.8.46xlarge | 184vcpu+1800GB+8*GU8TE | H20-3e(141G)
|
デプロイモード |
モデル読み込み時間 |
モデル読み込み速度 |
サービス準備完了時間 |
|
標準 (キャッシュアクセラレーションなし) |
12:33 |
6.83 Gbit/s |
27:41 |
|
コールドスタートアクセラレーション (キャッシュウォームアップあり) |
02:43 |
31.56 Gbit/s |
13:01 |
|
スケールアウトアクセラレーション (ローカルキャッシュあり) |
01:58 |
43.60 Gbit/s |
12:49 |