Kuantisasi LLM dengan Weight-only Quantization untuk Inference Efisien - Platform for AI - Alibaba Cloud - Platform For AI

Kompresi model mengurangi ukuran dan biaya komputasi model dengan penurunan performa prediktif yang minimal.

Cara kerja

PAI Model Gallery mendukung kuantisasi model berdasarkan Weight-only Quantization. Strategi MinMax-8Bit dan MinMax-4Bit mengonversi parameter bobot berupa bilangan floating-point menjadi representasi integer 8-bit atau 4-bit. Pendekatan ini mengurangi ukuran model dan penggunaan memori GPU, sehingga model pembelajaran mendalam dapat diterapkan di lingkungan dengan sumber daya terbatas dengan dampak minimal terhadap akurasi.

Kompres model

Lakukan pelatihan model.

Hanya model yang telah dilatih yang dapat dikompres. Latih model pra-latih terlebih dahulu. Untuk informasi selengkapnya, lihat Penerapan dan pelatihan model.
Setelah pelatihan selesai, klik Compression di pojok kanan atas halaman Task details.

Konfigurasikan parameter kompresi.

Tabel berikut menjelaskan parameter utama.

Parameter	Deskripsi
Metode kompresi	Hanya model quantization (Weight-only Quantization) yang didukung. Metode ini mengonversi parameter bobot ke lebar bit yang lebih rendah untuk mengurangi penggunaan memori GPU selama inferensi.
Strategi kompresi	MinMax-8Bit: Melakukan kuantisasi bobot model ke bilangan bulat 8-bit menggunakan penskalaan min-max. MinMax-4Bit: Melakukan kuantisasi bobot model ke bilangan bulat 4-bit menggunakan penskalaan min-max.

Untuk parameter lainnya, lihat Penerapan dan pelatihan model.

Klik Compression.

Halaman akan dialihkan ke halaman Task details, yang menampilkan status dan log pekerjaan kompresi.

Lihat pekerjaan kompresi

Untuk melihat pekerjaan kompresi, buka PAI Model Gallery > Job Management > Compression Jobs.

Platform For AI:Kompresi model

Cara kerja

Kompres model

Lihat pekerjaan kompresi

Langkah berikutnya