All Products
Search
Document Center

Platform For AI:Pelatihan Scorecard

Last Updated:Apr 01, 2026

Komponen Pelatihan Scorecard melatih model penilaian kredit menggunakan regresi logistik atau linier dengan rekayasa fitur bawaan. Berbeda dari regresi linier standar, komponen ini menerapkan diskretisasi fitur berbasis pengelompokan (binning) sebelum pelatihan dan secara opsional mentransformasikan fitur menggunakan weight of evidence (WOE). Proses pelatihan mendukung transformasi skor, optimisasi berbasis kendala, serta pemilihan fitur secara bertahap (stepwise).

Tanpa pengelompokan, pelatihan scorecard setara dengan regresi logistik atau linier standar.

Batasan

Komponen Pelatihan Scorecard menyimpan output modelnya dalam tabel sementara MaxCompute. Periode retensi default di Machine Learning Studio adalah 369 hari, yang sesuai dengan siklus hidup tabel sementara yang dikonfigurasi untuk ruang kerja saat ini di Machine Learning Designer. Untuk detailnya, lihat Mengelola ruang kerja.

Untuk menyimpan model melebihi periode retensi default, pertahankan model tersebut menggunakan komponen Write Table. Untuk informasi lebih lanjut, lihat FAQ tentang komponen algoritma.

Konsep utama

Rekayasa fitur

Perbedaan utama antara pelatihan scorecard dan pemodelan linier standar adalah bahwa pelatihan scorecard menerapkan rekayasa fitur sebelum menyesuaikan model. Komponen Binning mendukung dua pendekatan:

  • One-hot encoding: Mengelompokkan setiap variabel dan menghasilkan N variabel dummy (N = jumlah bin). Anda dapat menerapkan kendala pada masing-masing variabel dummy.

  • Konversi WOE: Mengganti nilai variabel asli dengan nilai weight of evidence (WOE) dari bin-nya. Hal ini menyandikan informasi prediktif langsung ke dalam fitur.

Transformasi skor

Dalam penilaian kredit, prediksi mentah model (log-odds) harus dikonversi menjadi skor yang dapat diinterpretasikan. Pelatihan Scorecard menerapkan transformasi linier menggunakan tiga parameter:

ParameterDeskripsi
scaledValueSkor yang diberikan pada nilai odds referensi
oddsOdds yang bersesuaian dengan scaledValue
pdoPoin untuk menggandakan odds

Ketiga parameter ini menentukan dua titik pada garis skor. Sebagai contoh, dengan scaledValue=800, odds=50, dan pdo=25:

log(50)  = a × 800 + b
log(100) = a × 825 + b

Selesaikan untuk a dan b guna memperoleh pemetaan linier, lalu terapkan untuk mentransformasikan bobot model menjadi skor.

Teruskan konfigurasi transformasi menggunakan parameter -Dscale dalam format JSON:

{"scaledValue": 800, "odds": 50, "pdo": 25}

Ketiga field wajib diisi jika parameter -Dscale ditentukan.

Kendala

Selama pelatihan, Anda dapat menambahkan kendala untuk mengontrol cara bobot variabel dipelajari. Tentukan kendala di komponen Binning — kendala tersebut akan secara otomatis diteruskan ke Pelatihan Scorecard sebagai string JSON yang disimpan dalam tabel satu sel (inputConstraintTableName).

Penting

Kendala hanya diterapkan oleh algoritma optimisasi SQP dan barrier method. Jika Anda memilih L-BFGS atau metode Newton, semua kendala akan diabaikan.

Jenis kendala yang didukung:

KendalaEfek
"<"Bobot diurutkan secara ascending
">"Bobot diurutkan secara descending
"="Bobot bin tertentu diatur ke nilai tetap
"%"Bobot dua bin harus memenuhi hubungan proporsional
"UP"Batas atas pada bobot suatu bin. Misalnya, nilai 0,5 menunjukkan bahwa bobot variabel setelah pelatihan paling besar 0,5.
"LO"Batas bawah pada bobot suatu bin. Misalnya, nilai 0,5 menunjukkan bahwa bobot variabel setelah pelatihan paling kecil 0,5.

Contoh JSON kendala (satu baris, satu kolom dalam tabel kendala):

{
    "name": "feature0",
    "<": [[0, 1, 2, 3]],
    ">": [[4, 5, 6]],
    "=": ["3:0", "4:0.25"],
    "%": [["6:1.0", "7:1.0"]]
}

Kendala bawaan: Untuk setiap variabel, skor rata-rata pada populasi pelatihan selalu 0. Akibatnya, nilai scaled_weight pada intercept sama dengan skor rata-rata populasi di seluruh variabel.

Algoritma optimisasi

Pada tab Parameters Setting, pilih Advanced Options untuk mengonfigurasi algoritma optimisasi.

AlgoritmaPesananMendukung kendalaPaling cocok untuk
L-BFGSPertamaTidakSet fitur besar
Newton's methodKeduaTidakSet fitur kecil hingga menengah; konvergensi cepat
Barrier methodKeduaYaSetara dengan SQP dalam sebagian besar kasus
SQPKeduaYaPenggunaan umum dengan kendala (direkomendasikan)

Jika Anda tidak familiar dengan algoritma optimisasi, atur Optimization Method ke Auto Selection. Sistem akan memilih algoritma paling tepat berdasarkan volume data dan keberadaan kendala.

Pemilihan fitur

Komponen ini mendukung pemilihan fitur secara bertahap (stepwise) — kombinasi dari seleksi maju (forward) dan mundur (backward). Setelah setiap langkah maju (menambahkan variabel), proses mundur menghapus variabel yang tidak lagi memenuhi ambang batas signifikansi.

Gunakan tabel berikut untuk memilih standar seleksi yang tepat untuk konfigurasi Anda:

Standar seleksiRekayasa fiturJenis modelAmbang batas
Marginal contributionOne-hot atau WOE (apa pun)Apa punTitik awal yang direkomendasikan: 10E-5
Score testHanya konversi WOERegresi logistikSLENTRY (majuan), SLSTAY (mundur) melalui chi-square
F testHanya konversi WOERegresi linierSLENTRY (majuan), SLSTAY (mundur) melalui distribusi F

Marginal contribution mengukur selisih nilai fungsi objektif antara model dengan dan tanpa variabel X. Standar ini berlaku untuk semua kombinasi rekayasa fitur dan jenis model, sehingga merupakan standar paling fleksibel.

Score test (majuan): Pada setiap iterasi, chi-square skor setiap variabel kandidat dihitung. Variabel dengan chi-square tertinggi ditambahkan, asalkan nilai-p-nya di bawah SLENTRY. Proses mundur menggunakan chi-square Wald; variabel dengan nilai-p di atas SLSTAY dihapus.

F test (majuan): Mirip dengan score test tetapi menggunakan distribusi F. Nilai F dihitung untuk setiap variabel kandidat; variabel dengan nilai-p di atas SLENTRY dikecualikan. Proses mundur menerapkan logika nilai F yang sama.

Pemilihan variabel paksa: Tentukan variabel yang harus disertakan tanpa syarat — tidak ada seleksi maju atau mundur yang diterapkan pada variabel tersebut. Konfigurasikan ini menggunakan parameter -Dselected:

{"max_step": 2, "slentry": 0.0001, "slstay": 0.0001}

Jika parameter -Dselected dibiarkan kosong atau max_step diatur ke 0, tidak ada pemilihan fitur yang dilakukan.

Parameter

Konfigurasikan komponen Pelatihan Scorecard melalui antarmuka Machine Learning Designer atau dengan menjalankan perintah PAI secara langsung. Contoh perintah:

pai -name=linear_model -project=algo_public
    -DinputTableName=input_data_table
    -DinputBinTableName=input_bin_table
    -DinputConstraintTableName=input_constraint_table
    -DoutputTableName=output_model_table
    -DlabelColName=label
    -DfeatureColNames=feaname1,feaname2
    -Doptimization=barrier_method
    -Dloss=logistic_regression
    -Dlifecycle=8
ParameterWajibDefaultDeskripsi
inputTableNameYaNama tabel fitur input
labelColNameYaNama kolom label
outputTableNameYaNama tabel model output
inputTablePartitionsTidakSeluruh tabelPartisi yang dibaca dari tabel fitur input
inputBinTableNameTidakTabel hasil pengelompokan; memicu diskretisasi fitur otomatis berdasarkan aturan pengelompokan
featureColNamesTidakSemua kolom non-labelKolom fitur yang disertakan dalam pelatihan
inputConstraintTableNameTidakTabel yang berisi JSON kendala (satu sel)
optimizationTidakautoAlgoritma optimisasi. Nilai valid: lbfgs, newton, barrier_method, sqp, auto
lossTidaklogistic_regressionFungsi loss. Nilai valid: logistic_regression, least_square
iterationsTidak100Jumlah maksimum iterasi optimisasi
l1WeightTidak0Bobot regularisasi L1. Hanya berlaku jika optimization=lbfgs
l2WeightTidak0Bobot regularisasi L2
mTidak10Ukuran langkah historis untuk L-BFGS. Hanya berlaku jika optimization=lbfgs
scaleTidakKonfigurasi transformasi skor dalam format JSON
selectedTidakKonfigurasi pemilihan fitur dalam format JSON
convergenceToleranceTidak1e-6Toleransi konvergensi
positiveLabelTidak1Nilai label untuk contoh positif
lifecycleTidakSiklus hidup tabel output (hari)
coreNumTidakDitentukan sistemJumlah core
memSizePerCoreTidakDitentukan sistemMemori per core (MB)

Output

Komponen Pelatihan Scorecard menghasilkan laporan model dengan statistik evaluasi untuk setiap bin fitur. Laporan tersebut berisi tiga kelompok field:

  • Metadata fitur dan bin: feaname, binid, bin, constraint, weight, scaled_weight

  • Statistik set pelatihan: woe, contribution, total, positive, negative, percentage_pos, percentage_neg

  • Statistik set data uji: test_woe, test_contribution, test_total, test_positive, test_negative, test_percentage_pos, test_percentage_neg

Referensi lengkap kolom:

KolomTipeDeskripsi
feanameSTRINGNama fitur
binidBIGINTID bin
binSTRINGDeskripsi interval bin
constraintSTRINGKendala yang diterapkan pada bin selama pelatihan
weightDOUBLEBobot bin. Untuk model non-scorecard tanpa pengelompokan, ini adalah bobot variabel model
scaled_weightDOUBLESkor yang ditransformasikan secara linier dari bobot bin (hanya untuk pelatihan scorecard)
woeDOUBLENilai WOE bin pada set pelatihan
contributionDOUBLEKontribusi marginal bin pada set pelatihan
totalBIGINTTotal sampel dalam bin (set pelatihan)
positiveBIGINTSampel positif dalam bin (set pelatihan)
negativeBIGINTSampel negatif dalam bin (set pelatihan)
percentage_posDOUBLEProporsi sampel positif bin terhadap total sampel positif (set pelatihan)
percentage_negDOUBLEProporsi sampel negatif bin terhadap total sampel negatif (set pelatihan)
test_woeDOUBLENilai WOE bin pada set data uji
test_contributionDOUBLEKontribusi marginal bin pada set data uji
test_totalBIGINTTotal sampel dalam bin (set data uji)
test_positiveBIGINTSampel positif dalam bin (set data uji)
test_negativeBIGINTSampel negatif dalam bin (set data uji)
test_percentage_posDOUBLEProporsi sampel positif bin terhadap total sampel positif (set data uji)
test_percentage_negDOUBLEProporsi sampel negatif bin terhadap total sampel negatif (set data uji)