|
Tanggal
|
Versi gambar
|
Versi pustaka bawaan
|
Pembaruan
|
|
2024.6.21
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4
Tag: chat-llm-webui:3.0
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm
Tag: chat-llm-webui:3.0-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade
Tag: chat-llm-webui:3.0-blade
|
-
Torch: 2.3.0
-
Torchvision: 0.18.0
-
Transformers: 4.41.2
-
vLLM: 0.5.0.post1
-
vllm-flash-attn: 2.5.9
-
Blade: 0.7.0
|
-
Mendukung penerapan model Rerank.
-
Mendukung penerapan simultan atau terpisah model Embedding, Rerank, dan LLM.
-
Backend Transformers mendukung Deepseek-V2, Yi1.5, dan Qwen2.
-
Mengubah tipe model Qwen1.5 menjadi qwen1.5.
-
Backend vLLM mendukung Qwen2.
-
Backend BladeLLM mendukung Llama3 dan Qwen2.
-
Backend HuggingFace (HF) mendukung input batch.
-
Backend BladeLLM mendukung OpenAI Chat.
-
Memperbaiki akses Metrics BladeLLM.
-
Backend Transformers mendukung penerapan model titik mengambang 8-bit (FP8).
-
Backend Transformers mendukung berbagai alat kuantisasi, seperti AWQ, HQQ, dan Quanto.
-
Backend vLLM mendukung FP8.
-
Parameter inferensi vLLM dan Blade mendukung pengaturan stop words.
-
Backend Transformers diadaptasi untuk GPU seri H.
|
|
2024.4.30
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade
|
-
Torch: 2.3.0
-
Torchvision: 0.18.0
-
Transformers: 4.40.2
-
vllm: 0.4.2
-
Blade: 0.5.1
|
-
Mendukung penerapan model embedding.
-
Backend vLLM mendukung pengembalian token usage.
-
Mendukung penerapan model Sentence-Transformers.
-
Backend Transformers mendukung yi-9B, qwen2-moe, llama3, qwencode, qwen1.5-32G/110B, phi-3, dan gemma-1.1-2/7B.
-
Backend vLLM mendukung yi-9B, qwen2-moe, SeaLLM, llama3, dan phi-3.
-
Backend Blade mendukung qwen1.5 dan SeaLLM.
-
Mendukung penerapan multi-model LLM dan model Embedding.
-
Mengeluarkan citra runtime flash-attn untuk backend Transformers.
-
Mengeluarkan citra runtime flash-attn untuk backend vLLM.
|
|
2024.3.28
|
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm
-
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade
|
-
Torch: 2.1.2
-
Torchvision: 0.16.2
-
Transformers: 4.38.2
-
Vllm: 0.3.3
-
Blade: 0.4.8
|
-
Menambahkan backend inferensi Blade yang mendukung konfigurasi multi-GPU pada satu mesin dan pengaturan kuantisasi.
-
Backend Transformers melakukan inferensi berdasarkan template chat tokenizer.
-
Backend HF mendukung inferensi Multi-LoRA.
-
Blade mendukung penerapan model terkuantisasi.
-
Blade secara otomatis melakukan pemisahan model.
-
Backend Transformers mendukung Deepseek dan Gemma.
-
Backend vLLM mendukung Deepseek dan Gemma.
-
Backend Blade mendukung model qwen1.5 dan yi.
-
Citra runtime vLLM dan Blade menyediakan akses ke /metrics.
-
Backend Transformers mendukung statistik token dalam respons streaming.
|
|
2024.2.22
|
|
-
Torch: 2.1.2
-
Torchvision: 0.16.0
-
Transformers: 4.37.2
-
vLLM: 0.3.0
|
-
Memperluas pengaturan parameter vLLM untuk mendukung perubahan semua parameter inferensi selama inferensi.
-
vLLM mendukung Multi-LoRA.
-
vLLM mendukung penerapan model terkuantisasi.
-
Citra runtime vLLM tidak lagi bergantung pada demo LangChain.
-
Backend inferensi Transformers mendukung model qwen1.5 dan qwen2.
-
Backend inferensi vLLM mendukung model qwen-1.5 dan qwen-2.
|
|
2024.1.23
|
|
-
Torch: 2.1.2
-
Torchvision: 0.16.2
-
Transformers: 4.37.2
-
vLLM: 0.2.6
|
-
Memisahkan citra runtime backend untuk kompilasi dan publikasi independen. Menambahkan backend BladeLLM baru.
-
Mendukung API OpenAI standar.
-
Model seperti Baichuan mendukung statistik performa.
-
Mendukung model seperti yi-6b-chat, yi-34b-chat, dan secgpt.
-
Titik akhir openai/v1/chat/completions diadaptasi untuk format riwayat chatglm3.
-
Mengoptimalkan streaming asinkron.
-
Dukungan model vLLM diselaraskan dengan HF.
-
Mengoptimalkan panggilan API backend.
-
Memperbaiki log error.
|
|
2023.12.6
|
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1
Tag: chat-llm-webui:2.1
|
-
Torch: 2.0.1
-
Torchvision: 0.15.2
-
Transformers: 4.33.3
-
vLLM: 0.2.0
|
-
Backend HF mendukung model mistral, zephyr, yi-6b, yi-34b, qwen-72b, qwen-1.8b, qwen7b-int4, qwen14b-int4, qwen7b-int8, qwen14b-int8, qwen-72b-int4, qwen-72b-int8, qwen-1.8b-int4, dan qwen-1.8b-int8.
-
Backend vLLM mendukung model Qwen dan ChatGLM1/2/3.
-
Backend inferensi HF mendukung flash attention.
-
Seri model ChatGLM mendukung statistik performa.
-
Menambahkan parameter command line --history-format untuk mendukung pengaturan peran.
-
Demo LangChain mendukung model Qwen.
-
Mengoptimalkan antarmuka akses streaming FastAPI.
|
|
2023.9.13
|
eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0
Tag: chat-llm-webui:2.0
|
|
-
Mendukung beberapa backend: vLLM dan HF.
-
Demo LangChain mendukung model ChatLLM dan Llama2.
-
Mendukung model seperti Baichuan, Baichuan2, Qwen, Falcon, Llama2, ChatGLM, ChatGLM2, ChatGLM3, dan yi.
-
Menambahkan dukungan HTTP dan WebSocket untuk streaming percakapan.
-
Tanggapan non-streaming mencakup jumlah token yang dihasilkan.
-
Semua model mendukung percakapan multi-putaran.
-
Mendukung ekspor catatan percakapan.
-
Mendukung pengaturan System Prompt dan penggabungan prompt untuk input tanpa templat.
-
Parameter inferensi dapat dikonfigurasi.
-
Mendukung mode Debug untuk log, yang mencakup waktu inferensi dalam output.
-
Backend vLLM secara default mendukung solusi paralel pemrosesan transaksional (TP) untuk konfigurasi multi-GPU pada satu mesin.
-
Mendukung penerapan model dengan presisi Float32, Float16, Int8, dan Int4.
|