Kompresi model mengurangi ukuran dan biaya komputasi model dengan penurunan performa prediktif yang minimal.
Cara kerja
PAI Model Gallery mendukung kuantisasi model berdasarkan Weight-only Quantization. Strategi MinMax-8Bit dan MinMax-4Bit mengonversi parameter bobot berupa bilangan floating-point menjadi representasi integer 8-bit atau 4-bit. Pendekatan ini mengurangi ukuran model dan penggunaan memori GPU, sehingga model pembelajaran mendalam dapat diterapkan di lingkungan dengan sumber daya terbatas dengan dampak minimal terhadap akurasi.
Kompres model
-
Lakukan pelatihan model.
Hanya model yang telah dilatih yang dapat dikompres. Latih model pra-latih terlebih dahulu. Untuk informasi selengkapnya, lihat Penerapan dan pelatihan model.
-
Setelah pelatihan selesai, klik Compression di pojok kanan atas halaman Task details.

-
Konfigurasikan parameter kompresi.
Tabel berikut menjelaskan parameter utama.
Parameter
Deskripsi
Metode kompresi
Hanya model quantization (Weight-only Quantization) yang didukung. Metode ini mengonversi parameter bobot ke lebar bit yang lebih rendah untuk mengurangi penggunaan memori GPU selama inferensi.
Strategi kompresi
-
MinMax-8Bit: Melakukan kuantisasi bobot model ke bilangan bulat 8-bit menggunakan penskalaan min-max.
-
MinMax-4Bit: Melakukan kuantisasi bobot model ke bilangan bulat 4-bit menggunakan penskalaan min-max.
Untuk parameter lainnya, lihat Penerapan dan pelatihan model.
-
-
Klik Compression.
Halaman akan dialihkan ke halaman Task details, yang menampilkan status dan log pekerjaan kompresi.
Lihat pekerjaan kompresi
Untuk melihat pekerjaan kompresi, buka PAI Model Gallery > Job Management > Compression Jobs.
