Population stability index (PSI) adalah metrik statistik yang digunakan untuk menilai perbedaan antara dua distribusi sampel. Metrik ini umumnya digunakan untuk memantau stabilitas performa model dari waktu ke waktu atau di berbagai lingkungan. PSI menghitung perbedaan distribusi antara dua sampel guna membantu mengidentifikasi potensi pergeseran atau deviasi data, sehingga memberikan dasar bagi pemeliharaan dan pembaruan model.
Deskripsi algoritma
Population stability index (PSI) mengukur stabilitas sampel. Misalnya, metrik ini dapat digunakan untuk menentukan apakah distribusi suatu sampel telah berubah secara signifikan antara dua bulan. Nilai PSI kurang dari 0,1 menunjukkan bahwa perubahan tidak signifikan. Nilai PSI antara 0,1 hingga 0,25 menunjukkan adanya perubahan yang terlihat jelas. Nilai PSI lebih dari 0,25 menunjukkan perubahan besar yang memerlukan perhatian khusus.
Stabilitas sampel pada waktu yang berbeda dapat diukur secara visual dengan membuat grafik. Untuk melakukannya, diskretisasi variabel menjadi N bin. Kemudian, hitung jumlah dan proporsi sampel di setiap bin, lalu tampilkan hasilnya dalam grafik kolom, seperti yang ditunjukkan pada gambar berikut.
Metode ini memungkinkan Anda memeriksa secara visual adanya perubahan besar pada suatu variabel antara dua kumpulan sampel, tetapi tidak memberikan ukuran kuantitatif. Artinya, metode ini tidak dapat digunakan untuk pemantauan otomatis stabilitas sampel. Di sinilah pentingnya PSI. Rumus untuk menghitung PSI ditunjukkan di bawah ini.
Konfigurasi komponen
Metode 1: Gunakan GUI
Pada halaman alur kerja Designer, tambahkan komponen Population Stability Index (PSI). Lalu, konfigurasikan parameternya di sisi kanan halaman:
Jenis parameter | Parameter | Deskripsi |
Fields setting | Features for PSI calculation | Kolom fitur yang akan dihitung PSI-nya. |
Execution tuning | Number of cores | Jumlah core CPU yang digunakan. Secara default, sistem mengalokasikan core secara otomatis. |
Memory size | Ukuran memori untuk setiap core CPU. Secara default, sistem mengalokasikan memori secara otomatis. |
Metode 2: Gunakan perintah PAI
Gunakan perintah PAI untuk mengonfigurasi parameter komponen Population Stability Index (PSI). Jalankan perintah PAI menggunakan komponen SQL script. Untuk informasi selengkapnya, lihat SQL Script.
PAI -name psi
-project algo_public
-DinputBaseTableName=psi_base_table
-DinputTestTableName=psi_test_table
-DoutputTableName=psi_bin_table
-DinputBinTableName=pai_index_table
-DfeatureColNames=fea1,fea2,fea3
-Dlifecycle=7Parameter | Wajib | Nilai default | Deskripsi |
inputBaseTableName | Ya | Tidak ada | Nama tabel dasar. Offset tabel uji dihitung berdasarkan tabel dasar ini. |
inputBaseTablePartitions | Tidak | Seluruh tabel | Partisi dari tabel dasar input. |
inputTestTableName | Ya | Tidak ada | Nama tabel uji. Offset tabel uji dihitung berdasarkan tabel dasar. |
inputTestTablePartitions | Tidak | Seluruh tabel | Partisi dari tabel uji input. |
inputBinTableName | Ya | Tidak ada | Nama tabel hasil pengelompokan (binning). |
featureColNames | Tidak | Seluruh tabel | Kolom fitur yang akan dihitung PSI-nya. |
outputTableName | Ya | Tidak ada | Nama tabel metrik output. |
lifecycle | Tidak | Tidak ada | Siklus hidup tabel output. |
coreNum | Tidak | Dialokasikan secara otomatis oleh sistem | Jumlah core CPU yang digunakan. |
memSizePerCore | Tidak | Dialokasikan secara otomatis oleh sistem | Ukuran memori untuk setiap core CPU, dalam satuan MB. |
Contoh
Lakukan pengelompokan (binning) data fitur sebelum menghitung PSI. Proses ini memerlukan komponen binning. Pada contoh yang ditunjukkan pada gambar berikut, komponen PSI dihubungkan ke dua dataset sampel dan komponen binning. Untuk melakukan perhitungan, cukup konfigurasikan Features for PSI calculation.

Gambar berikut menunjukkan hasil perhitungan PSI: