All Products
Search
Document Center

Platform For AI:Catatan rilis ChatLLM-WebUI

Last Updated:Mar 06, 2026

Topik ini menyediakan informasi penting mengenai rilis ChatLLM-WebUI.

Informasi rilis penting

Tanggal

Versi gambar

Versi pustaka bawaan

Pembaruan

2024.6.21

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4

    Tag: chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm

    Tag: chat-llm-webui:3.0-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade

    Tag: chat-llm-webui:3.0-blade

  • Torch: 2.3.0

  • Torchvision: 0.18.0

  • Transformers: 4.41.2

  • vLLM: 0.5.0.post1

  • vllm-flash-attn: 2.5.9

  • Blade: 0.7.0

  • Mendukung penerapan model Rerank.

  • Mendukung penerapan simultan atau terpisah model Embedding, Rerank, dan LLM.

  • Backend Transformers mendukung Deepseek-V2, Yi1.5, dan Qwen2.

  • Mengubah tipe model Qwen1.5 menjadi qwen1.5.

  • Backend vLLM mendukung Qwen2.

  • Backend BladeLLM mendukung Llama3 dan Qwen2.

  • Backend HuggingFace (HF) mendukung input batch.

  • Backend BladeLLM mendukung OpenAI Chat.

  • Memperbaiki akses Metrics BladeLLM.

  • Backend Transformers mendukung penerapan model titik mengambang 8-bit (FP8).

  • Backend Transformers mendukung berbagai alat kuantisasi, seperti AWQ, HQQ, dan Quanto.

  • Backend vLLM mendukung FP8.

  • Parameter inferensi vLLM dan Blade mendukung pengaturan stop words.

  • Backend Transformers diadaptasi untuk GPU seri H.

2024.4.30

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade

  • Torch: 2.3.0

  • Torchvision: 0.18.0

  • Transformers: 4.40.2

  • vllm: 0.4.2

  • Blade: 0.5.1

  • Mendukung penerapan model embedding.

  • Backend vLLM mendukung pengembalian token usage.

  • Mendukung penerapan model Sentence-Transformers.

  • Backend Transformers mendukung yi-9B, qwen2-moe, llama3, qwencode, qwen1.5-32G/110B, phi-3, dan gemma-1.1-2/7B.

  • Backend vLLM mendukung yi-9B, qwen2-moe, SeaLLM, llama3, dan phi-3.

  • Backend Blade mendukung qwen1.5 dan SeaLLM.

  • Mendukung penerapan multi-model LLM dan model Embedding.

  • Mengeluarkan citra runtime flash-attn untuk backend Transformers.

  • Mengeluarkan citra runtime flash-attn untuk backend vLLM.

2024.3.28

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade

  • Torch: 2.1.2

  • Torchvision: 0.16.2

  • Transformers: 4.38.2

  • Vllm: 0.3.3

  • Blade: 0.4.8

  • Menambahkan backend inferensi Blade yang mendukung konfigurasi multi-GPU pada satu mesin dan pengaturan kuantisasi.

  • Backend Transformers melakukan inferensi berdasarkan template chat tokenizer.

  • Backend HF mendukung inferensi Multi-LoRA.

  • Blade mendukung penerapan model terkuantisasi.

  • Blade secara otomatis melakukan pemisahan model.

  • Backend Transformers mendukung Deepseek dan Gemma.

  • Backend vLLM mendukung Deepseek dan Gemma.

  • Backend Blade mendukung model qwen1.5 dan yi.

  • Citra runtime vLLM dan Blade menyediakan akses ke /metrics.

  • Backend Transformers mendukung statistik token dalam respons streaming.

2024.2.22

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm

  • Torch: 2.1.2

  • Torchvision: 0.16.0

  • Transformers: 4.37.2

  • vLLM: 0.3.0

  • Memperluas pengaturan parameter vLLM untuk mendukung perubahan semua parameter inferensi selama inferensi.

  • vLLM mendukung Multi-LoRA.

  • vLLM mendukung penerapan model terkuantisasi.

  • Citra runtime vLLM tidak lagi bergantung pada demo LangChain.

  • Backend inferensi Transformers mendukung model qwen1.5 dan qwen2.

  • Backend inferensi vLLM mendukung model qwen-1.5 dan qwen-2.

2024.1.23

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm

  • Torch: 2.1.2

  • Torchvision: 0.16.2

  • Transformers: 4.37.2

  • vLLM: 0.2.6

  • Memisahkan citra runtime backend untuk kompilasi dan publikasi independen. Menambahkan backend BladeLLM baru.

  • Mendukung API OpenAI standar.

  • Model seperti Baichuan mendukung statistik performa.

  • Mendukung model seperti yi-6b-chat, yi-34b-chat, dan secgpt.

  • Titik akhir openai/v1/chat/completions diadaptasi untuk format riwayat chatglm3.

  • Mengoptimalkan streaming asinkron.

  • Dukungan model vLLM diselaraskan dengan HF.

  • Mengoptimalkan panggilan API backend.

  • Memperbaiki log error.

2023.12.6

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1

Tag: chat-llm-webui:2.1

  • Torch: 2.0.1

  • Torchvision: 0.15.2

  • Transformers: 4.33.3

  • vLLM: 0.2.0

  • Backend HF mendukung model mistral, zephyr, yi-6b, yi-34b, qwen-72b, qwen-1.8b, qwen7b-int4, qwen14b-int4, qwen7b-int8, qwen14b-int8, qwen-72b-int4, qwen-72b-int8, qwen-1.8b-int4, dan qwen-1.8b-int8.

  • Backend vLLM mendukung model Qwen dan ChatGLM1/2/3.

  • Backend inferensi HF mendukung flash attention.

  • Seri model ChatGLM mendukung statistik performa.

  • Menambahkan parameter command line --history-format untuk mendukung pengaturan peran.

  • Demo LangChain mendukung model Qwen.

  • Mengoptimalkan antarmuka akses streaming FastAPI.

2023.9.13

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0

Tag: chat-llm-webui:2.0

  • Torch: 2.0.1+cu117

  • Torchvision: 0.15.2+cu117

  • Transformers: 4.33.3

  • vLLM: 0.2.0

  • Mendukung beberapa backend: vLLM dan HF.

  • Demo LangChain mendukung model ChatLLM dan Llama2.

  • Mendukung model seperti Baichuan, Baichuan2, Qwen, Falcon, Llama2, ChatGLM, ChatGLM2, ChatGLM3, dan yi.

  • Menambahkan dukungan HTTP dan WebSocket untuk streaming percakapan.

  • Tanggapan non-streaming mencakup jumlah token yang dihasilkan.

  • Semua model mendukung percakapan multi-putaran.

  • Mendukung ekspor catatan percakapan.

  • Mendukung pengaturan System Prompt dan penggabungan prompt untuk input tanpa templat.

  • Parameter inferensi dapat dikonfigurasi.

  • Mendukung mode Debug untuk log, yang mencakup waktu inferensi dalam output.

  • Backend vLLM secara default mendukung solusi paralel pemrosesan transaksional (TP) untuk konfigurasi multi-GPU pada satu mesin.

  • Mendukung penerapan model dengan presisi Float32, Float16, Int8, dan Int4.

Referensi

EAS menyediakan metode berbasis skenario untuk menerapkan ChatLLM. Metode ini menyederhanakan penerapan aplikasi model bahasa besar (LLM) open source populer karena hanya memerlukan beberapa parameter konfigurasi. Untuk informasi lebih lanjut tentang penerapan dan pemanggilan layanan LLM, lihat Deploy large language models.