Catatan rilis untuk ChatLLM WebUI - Platform For AI

Topik ini mencakup catatan rilis untuk Antarmuka Pengguna Web ChatLLM (WebUI).

Versi penting

Tanggal	Versi gambar	Versi pustaka bawaan	Deskripsi
2024.6.21	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag: chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag: chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade	Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.41.2 vLLM: 0.5.0.post1 vllm-flash-attn: 2.5.9 Blade: 0.7.0	Penerapan model Rerank didukung. Penerapan model Embedding, Rerank, LLM secara bersamaan atau individu didukung. Backend Transformers mendukung Deepseek-V2, Yi1.5, dan Qwen2. Tipe model Qwen1.5 diubah menjadi qwen1.5. Backend vLLM mendukung Qwen2. Backend BladeLLM mendukung Llama3 dan Qwen2. Backend HuggingFace mendukung input batch. Backend BladeLLM mendukung OpenAI Chat. Akses ke BladeLLM Metrics diperbaiki. Backend Transformers mendukung penerapan model FP8. Backend Transformers mendukung beberapa toolkit kuantisasi: AWQ, HQQ, dan Quanto. Backend vLLM mendukung FP8. Parameter inferensi vLLM dan Blade mendukung kata penghenti. Backend Transformers mendukung kartu grafis H.
2024.4.30	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade	Torch: 2.3.0 Torchvision: 0.18.0 Transformers: 4.40.2 vllm: 0.4.2 Blade: 0.5.1	Penerapan model Embedding didukung. Backend vLLM mendukung pengembalian Token Usage. Penerapan model Sentence-Transformers didukung. Backend Transformers mendukung model berikut: yi-9B, qwen2-moe, llama3, qwencode, qwen1.5-32G/110B, phi-3, dan gemma-1.1-2/7B. Backend vLLM mendukung model berikut: yi-9B, qwen2-moe, SeaLLM, llama3, dan phi-3. Backend Blade mendukung qwen1.5 dan SeaLLM. Penerapan multi-model LLM dan Embedding didukung. Backend Transformers merilis gambar flash-attn. Backend vLLM merilis gambar flash-attn.
2024.3.28	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade	Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.38.2 Vllm: 0.3.3 Blade: 0.4.8	Backend blad inference ditambahkan, yang mendukung beberapa GPU untuk satu server dan kuantisasi. Backend Transformers melakukan inferensi berdasarkan template tokenizer chat. Backend HF mendukung Multi-LoRA inference. Blade mendukung penerapan model terkuantisasi. Blade mendukung pemisahan model otomatis. Backend Transformers mendukung DeepSeek dan Gemma. Backend vLLM mendukung Deepseek dan Gemma. Backend Blade mendukung model qwen1.5 dan yi. Gambar vLLM dan Blade mengaktifkan akses /metrics. Backend Transformers mendukung statistik token untuk keluaran streaming.
2024.2.22	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm	Torch: 2.1.2 Torchvision: 0.16.0 Transformers: 4.37.2 vLLM: 0.3.0	vLLM mendukung modifikasi semua parameter inferensi selama inferensi. vLLM mendukung Multi-LoRA. vLLM mendukung penerapan model terkuantisasi. Gambar vLLM tidak lagi bergantung pada demo LangChain. Backend inferensi Transformers mendukung model qwen1.5 dan qwen2. Backend inferensi vLLM mendukung model qwen-1.5 dan qwen-2.
2024.1.23	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm	Torch: 2.1.2 Torchvision: 0.16.2 Transformers: 4.37.2 vLLM: 0.2.6	Gambar backend dibagi dan dikompilasi serta dipublikasikan secara independen: Backend BladeLLM ditambahkan. API OpenAI standar didukung. Baichuan dan model lainnya mendukung statistik performa. Model berikut didukung: yi-6b-chat, yi-34b-chat, dan secgpt. openai/v1/chat/completions mendukung format history-format chatglm3. Mode streaming asinkron ditingkatkan. vLLM mendukung penyelarasan model dengan HuggingFace. Antarmuka panggilan backend ditingkatkan. Log kesalahan ditingkatkan.
2023.12.6	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1	Torch: 2.0.1 Torchvision: 0.15.2 Transformers: 4.33.3 vLLM: 0.2.0	Backend Huggingface mendukung model berikut: mistral, zephyr, yi-6b, yi-34b, qwen-72b, qwen-1.8b, qwen7b-int4, qwen14b-int4, qwen7b-int8, qwen14b-int8, qwen-72b-int4, qwen-72b-int8, qwen-1.8b-int4, dan qwen-1.8b-int8. Backend vLLM mendukung model Qwen dan ChatGLM1/2/3. Backend inferensi HuggingFace mendukung flash attention. Model ChatGLM mendukung metrik statistik performa. Parameter baris perintah --history-format ditambahkan dan mendukung penentuan peran. LangChain mendukung demo model Qwen. API streaming FastAPI ditingkatkan.
2023.9.13	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0	Torch: 2.0.1+cu117 Torchvision: 0.15.2+cu117 Transformers: 4.33.3 vLLM: 0.2.0	Beberapa backend vLLM dan Huggingface didukung. Demo LangChain mendukung model ChatLLM dan Llama2. Model berikut didukung: Baichuan, Baichuan2, Qwen, Falcon, Llama2, ChatGLM, ChatGLM2, ChatGLM3, dan yi. http dan websocket mendukung mode streaming percakapan. Jumlah token keluaran termasuk dalam mode keluaran non-streaming. Semua model mendukung percakapan multi-putaran. Ekspor riwayat percakapan didukung. Pengaturan prompt sistem dan penyambungan prompt tanpa template didukung. Konfigurasi parameter inferensi didukung. Mode debug log didukung, yang mendukung keluaran waktu inferensi. Secara default, backend vLLM mendukung skema paralel TP untuk beberapa GPU. Penerapan model dengan presisi Float32, Float16, Int8, dan Int4 didukung.

Referensi

Elastic Algorithm Service (EAS) menyediakan metode penerapan berbasis skenario untuk ChatLLM, memungkinkan Anda menerapkan layanan model bahasa besar (LLM) sumber terbuka populer dengan mengonfigurasi beberapa parameter. Untuk informasi lebih lanjut tentang cara menerapkan dan memanggil layanan LLM, lihat Terapkan LLM sebagai Layanan.