ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

Platform For AI:ChatLLM-WebUI リリースノート

最終更新日:Mar 06, 2026

このトピックでは、ChatLLM-WebUI の重要なリリース情報をご説明します。

重要リリース情報

日付	イメージバージョン	組み込みライブラリバージョン	更新内容
2024.6.21	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 タグ: chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm タグ: chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade タグ: chat-llm-webui:3.0-blade	Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.41.2 vLLM: 0.5.0.post1 vllm-flash-attn: 2.5.9 Blade: 0.7.0	Rerank モデルのデプロイメントをサポートします。埋め込み (Embedding)、Rerank、および LLM モデルを同時または個別にデプロイできるようになりました。 Transformers バックエンドが Deepseek-V2、Yi1.5、および Qwen2 をサポートします。 Qwen1.5 のモデルタイプを qwen1.5 に変更しました。 vLLM バックエンドが Qwen2 をサポートします。 BladeLLM バックエンドが Llama3 および Qwen2 をサポートします。 HuggingFace (HF) バックエンドがバッチ入力をサポートします。 BladeLLM バックエンドが OpenAI Chat をサポートします。 BladeLLM のメトリックアクセスに関する不具合を修正しました。 Transformers バックエンドが 8 ビット浮動小数点 (FP8) モデルのデプロイメントをサポートします。 Transformers バックエンドが AWQ、HQQ、Quanto などの複数の量子化ツールをサポートします。 vLLM バックエンドが FP8 をサポートします。 vLLM および Blade の推論パラメーターでストップワードの設定を可能にしました。 Transformers バックエンドを H シリーズ GPU に対応させました。
2024.4.30	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade	Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.40.2 vllm: 0.4.2 Blade: 0.5.1	埋め込み (Embedding) モデルのデプロイメントをサポートします。 vLLM バックエンドがトークン使用量の返却をサポートします。 Sentence-Transformers モデルのデプロイメントをサポートします。 Transformers バックエンドが yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3、および gemma-1.1-2/7B をサポートします。 vLLM バックエンドが yi-9B、qwen2-moe、SeaLLM、llama3、および phi-3 をサポートします。 Blade バックエンドが qwen1.5 および SeaLLM をサポートします。 LLM および埋め込み (Embedding) モデルのマルチモデルデプロイメントをサポートします。 Transformers バックエンド向けに flash-attn 実行時イメージをリリースしました。 vLLM バックエンド向けに flash-attn 実行時イメージをリリースしました。
2024.3.28	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade	Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.38.2 Vllm: 0.3.3 Blade: 0.4.8	マルチ GPU 構成および量子化設定をサポートする Blade 推論バックエンドを追加しました。 Transformers バックエンドがトークナイザのチャットテンプレートに基づいて推論を行います。 HF バックエンドが Multi-LoRA 推論をサポートします。 Blade が量子化済みモデルのデプロイメントをサポートします。 Blade がモデルを自動的に分割します。 Transformers バックエンドが Deepseek および Gemma をサポートします。 vLLM バックエンドが Deepseek および Gemma をサポートします。 Blade バックエンドが qwen1.5 および yi モデルをサポートします。 vLLM および Blade の実行時イメージから `/metrics` へのアクセスを提供します。 Transformers バックエンドがストリーミング応答におけるトークン統計をサポートします。
2024.2.22	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm	Torch: 2.1.2 Torchvision: 0.16.0 Transformers: 4.37.2 vLLM: 0.3.0	vLLM のパラメーター設定を拡張し、推論中にすべての推論パラメーターを変更できるようにしました。 vLLM が Multi-LoRA をサポートします。 vLLM が量子化済みモデルのデプロイメントをサポートします。 vLLM 実行時イメージが LangChain デモに依存しなくなりました。 Transformers 推論バックエンドが qwen1.5 および qwen2 モデルをサポートします。 vLLM 推論バックエンドが qwen-1.5 および qwen-2 モデルをサポートします。
2024.1.23	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm	Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.37.2 vLLM: 0.2.6	バックエンド実行時イメージを独立したコンパイルおよび公開用に分割しました。新しい BladeLLM バックエンドを追加しました。標準的な OpenAI API をサポートします。 Baichuan などのモデルでパフォーマンス統計をサポートします。 yi-6b-chat、yi-34b-chat、secgpt などのモデルをサポートします。 openai/v1/chat/completions エンドポイントを chatglm3 の履歴フォーマットに対応させました。非同期ストリーミングを最適化しました。 vLLM のモデルサポートを HF と整合させました。バックエンド API 呼び出しを最適化しました。エラーログを改善しました。
2023.12.6	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 タグ: chat-llm-webui:2.1	Torch: 2.0.1 Torchvision: 0.15.2 Transformers: 4.33.3 vLLM: 0.2.0	HF バックエンドが mistral、zephyr、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4、および qwen-1.8b-int8 モデルをサポートします。 vLLM バックエンドが Qwen および ChatGLM1/2/3 モデルをサポートします。 HF 推論バックエンドが Flash Attention をサポートします。 ChatGLM シリーズのモデルでパフォーマンス統計をサポートします。ロールの設定を可能にする `--history-format` コマンドラインパラメーターを追加しました。 LangChain デモが Qwen モデルをサポートします。 FastAPI ストリーミングアクセスインターフェイスを最適化しました。
2023.9.13	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 タグ: chat-llm-webui:2.0	Torch: 2.0.1+cu117 Torchvision: 0.15.2+cu117 Transformers: 4.33.3 vLLM: 0.2.0	vLLM および HF の複数のバックエンドをサポートします。 LangChain デモが ChatLLM および Llama2 モデルをサポートします。 Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3、および yi などのモデルをサポートします。会話ストリーミング向けに HTTP および WebSocket をサポートします。非ストリーミング応答に生成されたトークン数を含めるようになりました。すべてのモデルがマルチターン対話をサポートします。会話記録のエクスポートをサポートします。システムプロンプトの設定およびテンプレートなし入力向けのプロンプト連結をサポートします。推論パラメーターを設定可能にしました。ログ出力に推論時間を含むデバッグモードをサポートします。 vLLM バックエンドが、単一マシン上のマルチ GPU 構成向けに、デフォルトでトランザクショナル・プロセッシング (TP) パラレルソリューションをサポートします。 Float32、Float16、Int8、および Int4 精度でのモデルデプロイメントをサポートします。

参考

EAS は、ChatLLM のデプロイメントをシナリオベースで実行する方法を提供します。この方法では、人気のオープンソース大規模言語モデル (LLM) アプリケーションのデプロイメントを、わずか数個のパラメーター設定のみで簡素化できます。LLM サービスのデプロイメントおよび呼び出しについて詳しくは、「大規模言語モデルのデプロイメント」をご参照ください。