All Products
Search
Document Center

Platform For AI:Kompresi model

Last Updated:Apr 09, 2026

Kompresi model mengurangi ukuran dan biaya komputasi model dengan penurunan performa prediktif yang minimal.

Cara kerja

PAI Model Gallery mendukung kuantisasi model berdasarkan Weight-only Quantization. Strategi MinMax-8Bit dan MinMax-4Bit mengonversi parameter bobot berupa bilangan floating-point menjadi representasi integer 8-bit atau 4-bit. Pendekatan ini mengurangi ukuran model dan penggunaan memori GPU, sehingga model pembelajaran mendalam dapat diterapkan di lingkungan dengan sumber daya terbatas dengan dampak minimal terhadap akurasi.

Kompres model

  1. Lakukan pelatihan model.

    Hanya model yang telah dilatih yang dapat dikompres. Latih model pra-latih terlebih dahulu. Untuk informasi selengkapnya, lihat Penerapan dan pelatihan model.

  2. Setelah pelatihan selesai, klik Compression di pojok kanan atas halaman Task details.

    image

  3. Konfigurasikan parameter kompresi.

    Tabel berikut menjelaskan parameter utama.

    Parameter

    Deskripsi

    Metode kompresi

    Hanya model quantization (Weight-only Quantization) yang didukung. Metode ini mengonversi parameter bobot ke lebar bit yang lebih rendah untuk mengurangi penggunaan memori GPU selama inferensi.

    Strategi kompresi

    • MinMax-8Bit: Melakukan kuantisasi bobot model ke bilangan bulat 8-bit menggunakan penskalaan min-max.

    • MinMax-4Bit: Melakukan kuantisasi bobot model ke bilangan bulat 4-bit menggunakan penskalaan min-max.

    Untuk parameter lainnya, lihat Penerapan dan pelatihan model.

  4. Klik Compression.

    Halaman akan dialihkan ke halaman Task details, yang menampilkan status dan log pekerjaan kompresi.

Lihat pekerjaan kompresi

Untuk melihat pekerjaan kompresi, buka PAI Model Gallery > Job Management > Compression Jobs.

image

Langkah berikutnya