BladeLLM エンジンを使用してサービスをデプロイする場合、コマンドライン文 blade_llm_server
でサービスを開始できます。このトピックでは、blade_llm_server
でサポートされている構成パラメーターとその説明を紹介します。
使用例
次のコマンドは、指定されたディレクトリから HuggingFace 形式の Qwen3-4B モデルを読み込み、デフォルトでポート 8081 をリッスンしてリクエストを受信します。サービスのデプロイ方法の詳細については、「BladeLLM クイックスタート」をご参照ください。
blade_llm_server --model /mnt/model/Qwen3-4B/
パラメーターの説明
blade_llm_server
でサポートされているパラメーターは次のとおりです。
usage: blade_llm_server [-h] [--tensor_parallel_size int] [--pipeline_parallel_size int] [--pipeline_micro_batch int] [--attention_dp_size int] [--host str] [--port int]
[--worker_socket_path str] [--log_level {DEBUG,INFO,WARNING,ERROR}] [--max_gpu_memory_utilization float]
[--preempt_strategy {AUTO,RECOMPUTE,SWAP}] [--ragged_flash_max_batch_tokens int] [--decode_algo {sps,look_ahead,normal}] [--gamma int]
[--disable_prompt_cache] [--prompt_cache_enable_swap] [--decoding_parallelism int] [--metric_exporters None [None ...]] [--max_queue_time int]
[--enable_custom_allreduce] [--enable_json_warmup] [--enable_llumnix] [--llumnix_config str] [--model [str]] [--tokenizer_dir [str]]
[--chat_template [str]] [--dtype {half,float16,bfloat16,float,float32}]
[--kv_cache_quant {no_quant,int8,int4,int8_affine,int4_affine,fp8_e5m2,fp8_e4m3,mix_f852i4,mix_f843i4,mix_i8i4,mix_i4i4}]
[--kv_cache_quant_sub_heads int] [--tokenizer_special_tokens List] [--enable_triton_mla] [--disable_cuda_graph] [--cuda_graph_max_batch_size int]
[--cuda_graph_batch_sizes [List]] [--with_visual bool] [--use_sps bool] [--use_lookahead bool] [--look_ahead_window_size int]
[--look_ahead_gram_size int] [--guess_set_size int] [--draft.model [str]] [--draft.tokenizer_dir [str]] [--draft.chat_template [str]]
[--draft.dtype {half,float16,bfloat16,float,float32}]
[--draft.kv_cache_quant {no_quant,int8,int4,int8_affine,int4_affine,fp8_e5m2,fp8_e4m3,mix_f852i4,mix_f843i4,mix_i8i4,mix_i4i4}]
[--draft.kv_cache_quant_sub_heads int] [--draft.tokenizer_special_tokens List] [--draft.enable_triton_mla] [--draft.disable_cuda_graph]
[--draft.cuda_graph_max_batch_size int] [--draft.cuda_graph_batch_sizes [List]] [--draft.with_visual bool] [--draft.use_sps bool]
[--draft.use_lookahead bool] [--draft.look_ahead_window_size int] [--draft.look_ahead_gram_size int] [--draft.guess_set_size int]
[--temperature [float]] [--top_p [float]] [--top_k [int]] [--cat_prompt [bool]] [--repetition_penalty [float]] [--presence_penalty [float]]
[--max_new_tokens [int]] [--stop_sequences [List]] [--stop_tokens [List]] [--ignore_eos [bool]] [--skip_special_tokens [bool]]
[--enable_disagg_metric bool] [--enable_export_kv_lens_metric bool] [--enable_hybrid_dp bool] [--enable_quant bool] [--asymmetry bool]
[--block_wise_quant bool] [--enable_cute bool] [--no_scale bool] [--quant_lm_head bool] [--rotate bool] [--random_rotate_matrix bool]
[--skip_ffn_fc2 bool]
...
blade_llm_server パラメーターの詳細な説明は次のとおりです。
パラメーター | 値の型 | 必須 | デフォルト値 | 説明 |
--tensor_parallel_size (-tp) | int | いいえ | 1 | テンソル並列サイズ。 |
--pipeline_parallel_size (-pp) | int | いいえ | 1 | パイプライン並列サイズ。 |
--pipeline_micro_batch (-ppmb) | int | いいえ | 1 | パイプライン並列処理のマイクロバッチサイズ。 |
--attention_dp_size (-dp) | int | いいえ | 1 | データ並列サイズ。 |
--host | str | いいえ | 0.0.0.0 | サーバー ホスト名。 |
--port | int | いいえ | 8081 | サーバーのポート番号。 |
--worker_socket_path | str | いいえ |
| ワーカー プロセスのソケット パス。 |
--log_level | 列挙型 | いいえ | INFO | 出力するログ レベル。値には、以下が含まれます:
|
--max_gpu_memory_utilization | float | いいえ | 0.85 | 連続バッチ スケジューラの最大 GPU メモリ使用率。 |
--preempt_strategy | 列挙型 | いいえ | AUTO | KV キャッシュ容量が不足している場合に、プリエンプトされたリクエストを処理するための戦略。値には、以下が含まれます:
|
--ragged_flash_max_batch_tokens | int | いいえ | 2048 | Ragged フラッシュ メモリの最大バッチ トークン数。 |
--decode_algo | 列挙型 | いいえ | normal | 効率的なデコード アルゴリズム。値には、以下が含まれます:
|
--gamma | int | いいえ | 0 | 投機的デコードのガンマ ステップサイズ。 |
--disable_prompt_cache | なし | いいえ | False | プロンプト プレフィックス キャッシュを無効にします。 |
--prompt_cache_enable_swap | なし | いいえ | False | プロンプト キャッシュを GPU メモリから CPU メモリにスワップします。 |
--decoding_parallelism | int | いいえ | min(max(get_cpu_number() // 2, 1), 2) | デコードの並列処理設定。 |
--metric_exporters | なし [なし ...] | いいえ | logger | メトリック エクスポート方法。
|
--max_queue_time | int | いいえ | 3600 | キュー内のリクエストの最大待機時間 (秒単位)。 |
--enable_custom_allreduce | なし | いいえ | False | nccl all reduce の代わりにカスタム all reduce を使用します。 |
--enable_json_warmup | なし | いいえ | False | JSON スキーマの有限状態機械コンパイルを有効にします。 |
--enable_llumnix | なし | いいえ | False | llumnix を有効にします。 |
--llumnix_config | str | いいえ | なし | llumnix 構成ファイルへのパス。 |
以下は、モデル読み込みパラメーターです。 | ||||
--model | [str] | はい | なし | モデル ファイルを含むディレクトリ。 |
--tokenizer_dir | [str] | いいえ | なし | トークナイザーのパス。デフォルトはモデル ディレクトリです。 |
--chat_template | [str] | いいえ | なし | チャット テンプレート構成。 |
--dtype | 列挙型 | いいえ | half | 量子化されていないモデル部分と活性化部分に使用されるデータ精度
|
--kv_cache_quant | 列挙型 | いいえ | no_quant | KV キャッシュの量子化を有効にします。値には、no_quant、int8、int4、int8_affine、int4_affine、fp8_e5m2、fp8_e4m3、mix_f852i4、mix_f843i4、mix_i8i4、mix_i4i4 が含まれます。 |
--kv_cache_quant_sub_heads | int | いいえ | 1 | KV キャッシュ量子化のサブヘッド数。 |
--tokenizer_special_tokens | リスト | いいえ | [] | トークナイザーの特殊トークンを指定します。例: |
--enable_triton_mla | なし | いいえ | False | Triton を有効にします。そうでない場合は、Bladnn MLA を使用します。 |
--disable_cuda_graph | なし | いいえ | False | CUDA Graph を無効にします。 |
--cuda_graph_max_batch_size | int | いいえ | 64 | CUDA Graph の最大バッチサイズ。 |
--cuda_graph_batch_sizes | [リスト] | いいえ | なし | CUDA Graph によってキャプチャされるバッチサイズ。 |
--with_visual, --nowith_visual | bool | いいえ | True | ビジュアル モデルのサポートを有効にします。 |
--use_sps, --nouse_sps | bool | いいえ | False | 投機的デコードを有効にします。 |
--use_lookahead, --nouse_lookahead | bool | いいえ | False | LookAhead デコード パラメーターを有効にします。 |
--look_ahead_window_size | int | いいえ | 2 | LookAhead ウィンドウ サイズ。 |
--look_ahead_gram_size | int | いいえ | 2 | LookAhead n-gram サイズ。 |
--guess_set_size | int | いいえ | 3 | LookAhead 推測セット サイズ。 |
以下はドラフト モデルの読み込みパラメーターであり、投機的デコードが有効になっている場合にのみ有効です。 | ||||
--draft.model | [str] | いいえ | なし | モデル ファイルを含むディレクトリ。 |
--draft.tokenizer_dir | [str] | いいえ | なし | トークナイザーのパス。デフォルトはモデル ディレクトリです。 |
--draft.chat_template | [str] | いいえ | なし | チャット テンプレート構成。 |
--draft.dtype | 列挙型 | いいえ | half |
|
--draft.kv_cache_quant | 列挙型 | いいえ | no_quant | KV キャッシュの量子化を有効にします。値には、no_quant、int8、int4、int8_affine、int4_affine、fp8_e5m2、fp8_e4m3、mix_f852i4、mix_f843i4、mix_i8i4、mix_i4i4 が含まれます。 |
--draft.kv_cache_quant_sub_heads | int | いいえ | 1 | KV キャッシュ量子化のサブヘッド数。 |
--draft.tokenizer_special_tokens | リスト | いいえ | [] | 特殊なトークナイザー トークン。 |
--draft.enable_triton_mla | なし | いいえ | False | Triton を有効にします。そうでない場合は、Bladnn MLA を使用します。 |
--draft.disable_cuda_graph | なし | いいえ | False | CUDA Graph を有効にします。 |
--cuda_graph_max_batch_size | int | いいえ | 64 | CUDA Graph の最大バッチサイズ。 |
--draft.cuda_graph_batch_sizes | [リスト] | いいえ | なし | CUDA Graph のバッチサイズ。 |
--draft.with_visual, --draft.nowith_visual | bool | いいえ | True | ビジュアル モデルのサポートを有効にします。 |
--draft.use_sps, --draft.nouse_sps | bool | いいえ | False | 投機的デコードを有効にします。 |
--draft.use_lookahead, --draft.nouse_lookahead | bool | いいえ | False | LookAhead デコード パラメーターを有効にします。 |
--draft.look_ahead_window_size | int | いいえ | 2 | LookAhead ウィンドウ サイズ。 |
--draft.look_ahead_gram_size | int | いいえ | 2 | LookAhead n-gram サイズ。 |
--draft.guess_set_size | int | いいえ | 3 | LookAhead 推測セット サイズ。 |
以下は、LoRA 関連のパラメーターです。 | ||||
--max_lora_rank | int | いいえ | 16 | LoRA 重みの最大ランク値。 |
--max_loras | int | いいえ | 2 | LoRA の最大値。 |
--max_cpu_loras | int | いいえ | なし | CPU リソース使用量の最大制限。 |
--lora_dtype | str | いいえ | なし | LoRA データ型を指定します。 |
以下は、サービス サンプリング パラメーターです。これらのパラメーターは、「サービス呼び出しパラメーター構成」のオプションに対応しています。リクエスト時に特定のパラメーター値を指定しない場合は、サービス起動時に設定されたデフォルト値が使用されます。 | ||||
--temperature | [float] | いいえ | なし | ロジット分布を変更するために使用される温度パラメーター。 |
--top_p | [float] | いいえ | なし | 累積確率が top_p に達する最も可能性の高いトークンを保持します。 |
--top_k | [int] | いいえ | なし | 確率が最も高い top_k 個のトークンを保持します。 |
--cat_prompt | [bool] | いいえ | なし | 出力 ID をプロンプト ID でデトークン化することを有効にします。 |
--repetition_penalty | [float] | いいえ | なし | テキスト生成時にモデルが単語の繰り返しを回避する度合いを指定します。値が高いほど、繰り返される単語の回避が厳格になります。 |
--presence_penalty | [float] | いいえ | なし | テキスト生成時に元の入力テキストに表示されるトークンに対するペナルティの度合いを指定します。値が高いほど、生成されたテキストと元のテキスト間の一貫性に重点が置かれますが、生成されたテキストの多様性が低下する可能性があります。 |
--max_new_tokens | [int] | いいえ | なし | 生成されるトークンの最大数を制限します。 |
--stop_sequences | [リスト] | いいえ | なし | 特定のテキストで生成を停止します。例: "--stop_sequences a b c"。 |
--stop_tokens | [リスト] | いいえ | なし | 特定のトークン ID またはトークン シーケンスで生成を停止します。例: "--stop_tokens 1 2 3"。 |
--ignore_eos | [bool] | いいえ | なし | 生成中に eos トークンで停止しません。 |
--skip_special_tokens | [bool] | いいえ | なし | デコード中に token_id をトークンに変換するときに、特殊トークンをスキップします。 |