Tanggal | Versi gambar | Versi pustaka bawaan | Deskripsi |
2024.6.21 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag: chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag: chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade
| Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.41.2 vLLM: 0.5.0.post1 vllm-flash-attn: 2.5.9 Blade: 0.7.0
| Penerapan model Rerank didukung. Penerapan model Embedding, Rerank, LLM secara bersamaan atau individu didukung. Backend Transformers mendukung Deepseek-V2, Yi1.5, dan Qwen2. Tipe model Qwen1.5 diubah menjadi qwen1.5. Backend vLLM mendukung Qwen2. Backend BladeLLM mendukung Llama3 dan Qwen2. Backend HuggingFace mendukung input batch. Backend BladeLLM mendukung OpenAI Chat. Akses ke BladeLLM Metrics diperbaiki. Backend Transformers mendukung penerapan model FP8. Backend Transformers mendukung beberapa toolkit kuantisasi: AWQ, HQQ, dan Quanto. Backend vLLM mendukung FP8. Parameter inferensi vLLM dan Blade mendukung kata penghenti. Backend Transformers mendukung kartu grafis H.
|
2024.4.30 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade
| Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.40.2 vllm: 0.4.2 Blade: 0.5.1
| Penerapan model Embedding didukung. Backend vLLM mendukung pengembalian Token Usage. Penerapan model Sentence-Transformers didukung. Backend Transformers mendukung model berikut: yi-9B, qwen2-moe, llama3, qwencode, qwen1.5-32G/110B, phi-3, dan gemma-1.1-2/7B. Backend vLLM mendukung model berikut: yi-9B, qwen2-moe, SeaLLM, llama3, dan phi-3. Backend Blade mendukung qwen1.5 dan SeaLLM. Penerapan multi-model LLM dan Embedding didukung. Backend Transformers merilis gambar flash-attn. Backend vLLM merilis gambar flash-attn.
|
2024.3.28 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade
| Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.38.2 Vllm: 0.3.3 Blade: 0.4.8
| Backend blad inference ditambahkan, yang mendukung beberapa GPU untuk satu server dan kuantisasi. Backend Transformers melakukan inferensi berdasarkan template tokenizer chat. Backend HF mendukung Multi-LoRA inference. Blade mendukung penerapan model terkuantisasi. Blade mendukung pemisahan model otomatis. Backend Transformers mendukung DeepSeek dan Gemma. Backend vLLM mendukung Deepseek dan Gemma. Backend Blade mendukung model qwen1.5 dan yi. Gambar vLLM dan Blade mengaktifkan akses /metrics. Backend Transformers mendukung statistik token untuk keluaran streaming.
|
2024.2.22 | | Torch: 2.1.2 Torchvision: 0.16.0 Transformers: 4.37.2 vLLM: 0.3.0
| vLLM mendukung modifikasi semua parameter inferensi selama inferensi. vLLM mendukung Multi-LoRA. vLLM mendukung penerapan model terkuantisasi. Gambar vLLM tidak lagi bergantung pada demo LangChain. Backend inferensi Transformers mendukung model qwen1.5 dan qwen2. Backend inferensi vLLM mendukung model qwen-1.5 dan qwen-2.
|
2024.1.23 | | Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.37.2 vLLM: 0.2.6
| Gambar backend dibagi dan dikompilasi serta dipublikasikan secara independen: Backend BladeLLM ditambahkan. API OpenAI standar didukung. Baichuan dan model lainnya mendukung statistik performa. Model berikut didukung: yi-6b-chat, yi-34b-chat, dan secgpt. openai/v1/chat/completions mendukung format history-format chatglm3. Mode streaming asinkron ditingkatkan. vLLM mendukung penyelarasan model dengan HuggingFace. Antarmuka panggilan backend ditingkatkan. Log kesalahan ditingkatkan.
|
2023.12.6 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1 | Torch: 2.0.1 Torchvision: 0.15.2 Transformers: 4.33.3 vLLM: 0.2.0
| Backend Huggingface mendukung model berikut: mistral, zephyr, yi-6b, yi-34b, qwen-72b, qwen-1.8b, qwen7b-int4, qwen14b-int4, qwen7b-int8, qwen14b-int8, qwen-72b-int4, qwen-72b-int8, qwen-1.8b-int4, dan qwen-1.8b-int8. Backend vLLM mendukung model Qwen dan ChatGLM1/2/3. Backend inferensi HuggingFace mendukung flash attention. Model ChatGLM mendukung metrik statistik performa. Parameter baris perintah --history-format ditambahkan dan mendukung penentuan peran. LangChain mendukung demo model Qwen. API streaming FastAPI ditingkatkan.
|
2023.9.13 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0 | | Beberapa backend vLLM dan Huggingface didukung. Demo LangChain mendukung model ChatLLM dan Llama2. Model berikut didukung: Baichuan, Baichuan2, Qwen, Falcon, Llama2, ChatGLM, ChatGLM2, ChatGLM3, dan yi. http dan websocket mendukung mode streaming percakapan. Jumlah token keluaran termasuk dalam mode keluaran non-streaming. Semua model mendukung percakapan multi-putaran. Ekspor riwayat percakapan didukung. Pengaturan prompt sistem dan penyambungan prompt tanpa template didukung. Konfigurasi parameter inferensi didukung. Mode debug log didukung, yang mendukung keluaran waktu inferensi. Secara default, backend vLLM mendukung skema paralel TP untuk beberapa GPU. Penerapan model dengan presisi Float32, Float16, Int8, dan Int4 didukung.
|