|
日付
|
イメージバージョン
|
組み込みライブラリバージョン
|
更新内容
|
|
2024.6.21
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4
タグ: chat-llm-webui:3.0
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm
タグ: chat-llm-webui:3.0-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade
タグ: chat-llm-webui:3.0-blade
|
-
Torch: 2.3.0
-
Torchvision: 0.18.0
-
Transformers: 4.41.2
-
vLLM: 0.5.0.post1
-
vllm-flash-attn: 2.5.9
-
Blade: 0.7.0
|
-
Rerank モデルのデプロイメントをサポートします。
-
埋め込み (Embedding)、Rerank、および LLM モデルを同時または個別にデプロイできるようになりました。
-
Transformers バックエンドが Deepseek-V2、Yi1.5、および Qwen2 をサポートします。
-
Qwen1.5 のモデルタイプを qwen1.5 に変更しました。
-
vLLM バックエンドが Qwen2 をサポートします。
-
BladeLLM バックエンドが Llama3 および Qwen2 をサポートします。
-
HuggingFace (HF) バックエンドがバッチ入力をサポートします。
-
BladeLLM バックエンドが OpenAI Chat をサポートします。
-
BladeLLM のメトリックアクセスに関する不具合を修正しました。
-
Transformers バックエンドが 8 ビット浮動小数点 (FP8) モデルのデプロイメントをサポートします。
-
Transformers バックエンドが AWQ、HQQ、Quanto などの複数の量子化ツールをサポートします。
-
vLLM バックエンドが FP8 をサポートします。
-
vLLM および Blade の推論パラメーターでストップワードの設定を可能にしました。
-
Transformers バックエンドを H シリーズ GPU に対応させました。
|
|
2024.4.30
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade
|
-
Torch: 2.3.0
-
Torchvision: 0.18.0
-
Transformers: 4.40.2
-
vllm: 0.4.2
-
Blade: 0.5.1
|
-
埋め込み (Embedding) モデルのデプロイメントをサポートします。
-
vLLM バックエンドがトークン使用量の返却をサポートします。
-
Sentence-Transformers モデルのデプロイメントをサポートします。
-
Transformers バックエンドが yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3、および gemma-1.1-2/7B をサポートします。
-
vLLM バックエンドが yi-9B、qwen2-moe、SeaLLM、llama3、および phi-3 をサポートします。
-
Blade バックエンドが qwen1.5 および SeaLLM をサポートします。
-
LLM および埋め込み (Embedding) モデルのマルチモデルデプロイメントをサポートします。
-
Transformers バックエンド向けに flash-attn 実行時イメージをリリースしました。
-
vLLM バックエンド向けに flash-attn 実行時イメージをリリースしました。
|
|
2024.3.28
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade
|
-
Torch: 2.1.2
-
Torchvision: 0.16.2
-
Transformers: 4.38.2
-
Vllm: 0.3.3
-
Blade: 0.4.8
|
-
マルチ GPU 構成および量子化設定をサポートする Blade 推論バックエンドを追加しました。
-
Transformers バックエンドがトークナイザのチャットテンプレートに基づいて推論を行います。
-
HF バックエンドが Multi-LoRA 推論をサポートします。
-
Blade が量子化済みモデルのデプロイメントをサポートします。
-
Blade がモデルを自動的に分割します。
-
Transformers バックエンドが Deepseek および Gemma をサポートします。
-
vLLM バックエンドが Deepseek および Gemma をサポートします。
-
Blade バックエンドが qwen1.5 および yi モデルをサポートします。
-
vLLM および Blade の実行時イメージから `/metrics` へのアクセスを提供します。
-
Transformers バックエンドがストリーミング応答におけるトークン統計をサポートします。
|
|
2024.2.22
|
|
-
Torch: 2.1.2
-
Torchvision: 0.16.0
-
Transformers: 4.37.2
-
vLLM: 0.3.0
|
-
vLLM のパラメーター設定を拡張し、推論中にすべての推論パラメーターを変更できるようにしました。
-
vLLM が Multi-LoRA をサポートします。
-
vLLM が量子化済みモデルのデプロイメントをサポートします。
-
vLLM 実行時イメージが LangChain デモに依存しなくなりました。
-
Transformers 推論バックエンドが qwen1.5 および qwen2 モデルをサポートします。
-
vLLM 推論バックエンドが qwen-1.5 および qwen-2 モデルをサポートします。
|
|
2024.1.23
|
|
-
Torch: 2.1.2
-
Torchvision: 0.16.2
-
Transformers: 4.37.2
-
vLLM: 0.2.6
|
-
バックエンド実行時イメージを独立したコンパイルおよび公開用に分割しました。新しい BladeLLM バックエンドを追加しました。
-
標準的な OpenAI API をサポートします。
-
Baichuan などのモデルでパフォーマンス統計をサポートします。
-
yi-6b-chat、yi-34b-chat、secgpt などのモデルをサポートします。
-
openai/v1/chat/completions エンドポイントを chatglm3 の履歴フォーマットに対応させました。
-
非同期ストリーミングを最適化しました。
-
vLLM のモデルサポートを HF と整合させました。
-
バックエンド API 呼び出しを最適化しました。
-
エラー ログを改善しました。
|
|
2023.12.6
|
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1
タグ: chat-llm-webui:2.1
|
-
Torch: 2.0.1
-
Torchvision: 0.15.2
-
Transformers: 4.33.3
-
vLLM: 0.2.0
|
-
HF バックエンドが mistral、zephyr、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4、および qwen-1.8b-int8 モデルをサポートします。
-
vLLM バックエンドが Qwen および ChatGLM1/2/3 モデルをサポートします。
-
HF 推論バックエンドが Flash Attention をサポートします。
-
ChatGLM シリーズのモデルでパフォーマンス統計をサポートします。
-
ロールの設定を可能にする `--history-format` コマンドラインパラメーターを追加しました。
-
LangChain デモが Qwen モデルをサポートします。
-
FastAPI ストリーミングアクセスインターフェイスを最適化しました。
|
|
2023.9.13
|
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0
タグ: chat-llm-webui:2.0
|
|
-
vLLM および HF の複数のバックエンドをサポートします。
-
LangChain デモが ChatLLM および Llama2 モデルをサポートします。
-
Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3、および yi などのモデルをサポートします。
-
会話ストリーミング向けに HTTP および WebSocket をサポートします。
-
非ストリーミング応答に生成されたトークン数を含めるようになりました。
-
すべてのモデルがマルチターン対話をサポートします。
-
会話記録のエクスポートをサポートします。
-
システムプロンプトの設定およびテンプレートなし入力向けのプロンプト連結をサポートします。
-
推論パラメーターを設定可能にしました。
-
ログ出力に推論時間を含むデバッグモードをサポートします。
-
vLLM バックエンドが、単一マシン上のマルチ GPU 構成向けに、デフォルトでトランザクショナル・プロセッシング (TP) パラレルソリューションをサポートします。
-
Float32、Float16、Int8、および Int4 精度でのモデルデプロイメントをサポートします。
|