すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:サービスデプロイメントパラメーター構成

最終更新日:May 29, 2025

BladeLLM エンジンを使用してサービスをデプロイする場合、コマンドライン文 blade_llm_server でサービスを開始できます。このトピックでは、blade_llm_server でサポートされている構成パラメーターとその説明を紹介します。

使用例

次のコマンドは、指定されたディレクトリから HuggingFace 形式の Qwen3-4B モデルを読み込み、デフォルトでポート 8081 をリッスンしてリクエストを受信します。サービスのデプロイ方法の詳細については、「BladeLLM クイックスタート」をご参照ください。

blade_llm_server --model /mnt/model/Qwen3-4B/

パラメーターの説明

blade_llm_server でサポートされているパラメーターは次のとおりです。

usage: blade_llm_server [-h] [--tensor_parallel_size int] [--pipeline_parallel_size int] [--pipeline_micro_batch int] [--attention_dp_size int] [--host str] [--port int]
                        [--worker_socket_path str] [--log_level {DEBUG,INFO,WARNING,ERROR}] [--max_gpu_memory_utilization float]
                        [--preempt_strategy {AUTO,RECOMPUTE,SWAP}] [--ragged_flash_max_batch_tokens int] [--decode_algo {sps,look_ahead,normal}] [--gamma int]
                        [--disable_prompt_cache] [--prompt_cache_enable_swap] [--decoding_parallelism int] [--metric_exporters None [None ...]] [--max_queue_time int]
                        [--enable_custom_allreduce] [--enable_json_warmup] [--enable_llumnix] [--llumnix_config str] [--model [str]] [--tokenizer_dir [str]]
                        [--chat_template [str]] [--dtype {half,float16,bfloat16,float,float32}] 
                        [--kv_cache_quant {no_quant,int8,int4,int8_affine,int4_affine,fp8_e5m2,fp8_e4m3,mix_f852i4,mix_f843i4,mix_i8i4,mix_i4i4}]
                        [--kv_cache_quant_sub_heads int] [--tokenizer_special_tokens List] [--enable_triton_mla] [--disable_cuda_graph] [--cuda_graph_max_batch_size int]
                        [--cuda_graph_batch_sizes [List]] [--with_visual bool] [--use_sps bool] [--use_lookahead bool] [--look_ahead_window_size int]
                        [--look_ahead_gram_size int] [--guess_set_size int] [--draft.model [str]] [--draft.tokenizer_dir [str]] [--draft.chat_template [str]]
                        [--draft.dtype {half,float16,bfloat16,float,float32}] 
                        [--draft.kv_cache_quant {no_quant,int8,int4,int8_affine,int4_affine,fp8_e5m2,fp8_e4m3,mix_f852i4,mix_f843i4,mix_i8i4,mix_i4i4}]
                        [--draft.kv_cache_quant_sub_heads int] [--draft.tokenizer_special_tokens List] [--draft.enable_triton_mla] [--draft.disable_cuda_graph]
                        [--draft.cuda_graph_max_batch_size int] [--draft.cuda_graph_batch_sizes [List]] [--draft.with_visual bool] [--draft.use_sps bool]
                        [--draft.use_lookahead bool] [--draft.look_ahead_window_size int] [--draft.look_ahead_gram_size int] [--draft.guess_set_size int]
                        [--temperature [float]] [--top_p [float]] [--top_k [int]] [--cat_prompt [bool]] [--repetition_penalty [float]] [--presence_penalty [float]]
                        [--max_new_tokens [int]] [--stop_sequences [List]] [--stop_tokens [List]] [--ignore_eos [bool]] [--skip_special_tokens [bool]]
                        [--enable_disagg_metric bool] [--enable_export_kv_lens_metric bool] [--enable_hybrid_dp bool] [--enable_quant bool] [--asymmetry bool]
                        [--block_wise_quant bool] [--enable_cute bool] [--no_scale bool] [--quant_lm_head bool] [--rotate bool] [--random_rotate_matrix bool]
                        [--skip_ffn_fc2 bool]
                        ...

blade_llm_server パラメーターの詳細な説明は次のとおりです。

パラメーター

値の型

必須

デフォルト値

説明

--tensor_parallel_size (-tp)

int

いいえ

1

テンソル並列サイズ。

--pipeline_parallel_size (-pp)

int

いいえ

1

パイプライン並列サイズ。

--pipeline_micro_batch (-ppmb)

int

いいえ

1

パイプライン並列処理のマイクロバッチサイズ。

--attention_dp_size (-dp)

int

いいえ

1

データ並列サイズ。

--host

str

いいえ

0.0.0.0

サーバー ホスト名。

--port

int

いいえ

8081

サーバーのポート番号。

--worker_socket_path

str

いいえ

/tmp/blade_llm.sock

ワーカー プロセスのソケット パス。

--log_level

列挙型

いいえ

INFO

出力するログ レベル。値には、以下が含まれます:

  • DEBUG

  • INFO

  • WARNING

  • ERROR

--max_gpu_memory_utilization

float

いいえ

0.85

連続バッチ スケジューラの最大 GPU メモリ使用率。

--preempt_strategy

列挙型

いいえ

AUTO

KV キャッシュ容量が不足している場合に、プリエンプトされたリクエストを処理するための戦略。値には、以下が含まれます:

  • RECOMPUTE

  • SWAP

  • AUTO

--ragged_flash_max_batch_tokens

int

いいえ

2048

Ragged フラッシュ メモリの最大バッチ トークン数。

--decode_algo

列挙型

いいえ

normal

効率的なデコード アルゴリズム。値には、以下が含まれます:

  • sps

  • look_ahead

  • normal

--gamma

int

いいえ

0

投機的デコードのガンマ ステップサイズ。

--disable_prompt_cache

なし

いいえ

False

プロンプト プレフィックス キャッシュを無効にします。

--prompt_cache_enable_swap

なし

いいえ

False

プロンプト キャッシュを GPU メモリから CPU メモリにスワップします。

--decoding_parallelism

int

いいえ

min(max(get_cpu_number() // 2, 1), 2)

デコードの並列処理設定。

--metric_exporters

なし [なし ...]

いいえ

logger

メトリック エクスポート方法。

  • logger: メトリックをログに出力します。

  • eas: メトリックを EAS にプッシュします。

--max_queue_time

int

いいえ

3600

キュー内のリクエストの最大待機時間 (秒単位)。

--enable_custom_allreduce

なし

いいえ

False

nccl all reduce の代わりにカスタム all reduce を使用します。

--enable_json_warmup

なし

いいえ

False

JSON スキーマの有限状態機械コンパイルを有効にします。

--enable_llumnix

なし

いいえ

False

llumnix を有効にします。

--llumnix_config

str

いいえ

なし

llumnix 構成ファイルへのパス。

以下は、モデル読み込みパラメーターです。

--model

[str]

はい

なし

モデル ファイルを含むディレクトリ。

--tokenizer_dir

[str]

いいえ

なし

トークナイザーのパス。デフォルトはモデル ディレクトリです。

--chat_template

[str]

いいえ

なし

チャット テンプレート構成。

--dtype

列挙型

いいえ

half

量子化されていないモデル部分と活性化部分に使用されるデータ精度

  • half

  • float16

  • bfloat16

  • float

  • float32

--kv_cache_quant

列挙型

いいえ

no_quant

KV キャッシュの量子化を有効にします。値には、no_quant、int8、int4、int8_affine、int4_affine、fp8_e5m2、fp8_e4m3、mix_f852i4、mix_f843i4、mix_i8i4、mix_i4i4 が含まれます。

--kv_cache_quant_sub_heads

int

いいえ

1

KV キャッシュ量子化のサブヘッド数。

--tokenizer_special_tokens

リスト

いいえ

[]

トークナイザーの特殊トークンを指定します。例: --tokenizer_special_tokens bos_token=<s> eos_token=</s>

--enable_triton_mla

なし

いいえ

False

Triton を有効にします。そうでない場合は、Bladnn MLA を使用します。

--disable_cuda_graph

なし

いいえ

False

CUDA Graph を無効にします。

--cuda_graph_max_batch_size

int

いいえ

64

CUDA Graph の最大バッチサイズ。

--cuda_graph_batch_sizes

[リスト]

いいえ

なし

CUDA Graph によってキャプチャされるバッチサイズ。

--with_visual, --nowith_visual

bool

いいえ

True

ビジュアル モデルのサポートを有効にします。

--use_sps, --nouse_sps

bool

いいえ

False

投機的デコードを有効にします。

--use_lookahead, --nouse_lookahead

bool

いいえ

False

LookAhead デコード パラメーターを有効にします。

--look_ahead_window_size

int

いいえ

2

LookAhead ウィンドウ サイズ。

--look_ahead_gram_size

int

いいえ

2

LookAhead n-gram サイズ。

--guess_set_size

int

いいえ

3

LookAhead 推測セット サイズ。

以下はドラフト モデルの読み込みパラメーターであり、投機的デコードが有効になっている場合にのみ有効です。

--draft.model

[str]

いいえ

なし

モデル ファイルを含むディレクトリ。

--draft.tokenizer_dir

[str]

いいえ

なし

トークナイザーのパス。デフォルトはモデル ディレクトリです。

--draft.chat_template

[str]

いいえ

なし

チャット テンプレート構成。

--draft.dtype

列挙型

いいえ

half

  • half

  • float16

  • bfloat16

  • float

  • float32

--draft.kv_cache_quant

列挙型

いいえ

no_quant

KV キャッシュの量子化を有効にします。値には、no_quant、int8、int4、int8_affine、int4_affine、fp8_e5m2、fp8_e4m3、mix_f852i4、mix_f843i4、mix_i8i4、mix_i4i4 が含まれます。

--draft.kv_cache_quant_sub_heads

int

いいえ

1

KV キャッシュ量子化のサブヘッド数。

--draft.tokenizer_special_tokens

リスト

いいえ

[]

特殊なトークナイザー トークン。

--draft.enable_triton_mla

なし

いいえ

False

Triton を有効にします。そうでない場合は、Bladnn MLA を使用します。

--draft.disable_cuda_graph

なし

いいえ

False

CUDA Graph を有効にします。

--cuda_graph_max_batch_size

int

いいえ

64

CUDA Graph の最大バッチサイズ。

--draft.cuda_graph_batch_sizes

[リスト]

いいえ

なし

CUDA Graph のバッチサイズ。

--draft.with_visual, --draft.nowith_visual

bool

いいえ

True

ビジュアル モデルのサポートを有効にします。

--draft.use_sps, --draft.nouse_sps

bool

いいえ

False

投機的デコードを有効にします。

--draft.use_lookahead, --draft.nouse_lookahead

bool

いいえ

False

LookAhead デコード パラメーターを有効にします。

--draft.look_ahead_window_size

int

いいえ

2

LookAhead ウィンドウ サイズ。

--draft.look_ahead_gram_size

int

いいえ

2

LookAhead n-gram サイズ。

--draft.guess_set_size

int

いいえ

3

LookAhead 推測セット サイズ。

以下は、LoRA 関連のパラメーターです。

--max_lora_rank

int

いいえ

16

LoRA 重みの最大ランク値。

--max_loras

int

いいえ

2

LoRA の最大値。

--max_cpu_loras

int

いいえ

なし

CPU リソース使用量の最大制限。

--lora_dtype

str

いいえ

なし

LoRA データ型を指定します。

以下は、サービス サンプリング パラメーターです。これらのパラメーターは、「サービス呼び出しパラメーター構成」のオプションに対応しています。リクエスト時に特定のパラメーター値を指定しない場合は、サービス起動時に設定されたデフォルト値が使用されます。

--temperature

[float]

いいえ

なし

ロジット分布を変更するために使用される温度パラメーター。

--top_p

[float]

いいえ

なし

累積確率が top_p に達する最も可能性の高いトークンを保持します。

--top_k

[int]

いいえ

なし

確率が最も高い top_k 個のトークンを保持します。

--cat_prompt

[bool]

いいえ

なし

出力 ID をプロンプト ID でデトークン化することを有効にします。

--repetition_penalty

[float]

いいえ

なし

テキスト生成時にモデルが単語の繰り返しを回避する度合いを指定します。値が高いほど、繰り返される単語の回避が厳格になります。

--presence_penalty

[float]

いいえ

なし

テキスト生成時に元の入力テキストに表示されるトークンに対するペナルティの度合いを指定します。値が高いほど、生成されたテキストと元のテキスト間の一貫性に重点が置かれますが、生成されたテキストの多様性が低下する可能性があります。

--max_new_tokens

[int]

いいえ

なし

生成されるトークンの最大数を制限します。

--stop_sequences

[リスト]

いいえ

なし

特定のテキストで生成を停止します。例: "--stop_sequences a b c"。

--stop_tokens

[リスト]

いいえ

なし

特定のトークン ID またはトークン シーケンスで生成を停止します。例: "--stop_tokens 1 2 3"。

--ignore_eos

[bool]

いいえ

なし

生成中に eos トークンで停止しません。

--skip_special_tokens

[bool]

いいえ

なし

デコード中に token_id をトークンに変換するときに、特殊トークンをスキップします。