All Products
Search
Document Center

Platform For AI:Principal Component Analysis

Last Updated:Apr 02, 2026

Saat melatih model pembelajaran mesin, dataset berdimensi tinggi dapat memperlambat proses pelatihan dan menambahkan kebisingan. Principal Component Analysis (PCA) mengurangi dimensi dengan mengekstraksi sejumlah kecil komponen utama yang tidak berkorelasi dari fitur asli Anda, sambil mempertahankan varians sebanyak mungkin. Gunakan komponen PCA di Machine Learning Designer pada Platform for AI (PAI) untuk melakukan pra-pemrosesan data tabular sebelum pelatihan model tahap berikutnya.

Batasan

Komponen PCA hanya menerima data dalam dense format. Matriks sparse tidak didukung.

Konfigurasikan komponen

Tersedia dua metode konfigurasi: editor pipeline visual untuk pengaturan interaktif atau perintah PAI untuk alur kerja skrip dan otomatis.

Metode 1: Konfigurasikan di halaman pipeline

Di Machine Learning Designer, buka pipeline Anda, pilih komponen PCA, lalu atur parameter berikut.

TabParameterDeskripsi
Fields settingFeature columnsKolom yang dipilih dari tabel input untuk dianalisis.
Fields settingAppended columnsKolom yang ditambahkan ke tabel output setelah reduksi dimensi.
Parameters settingData size ratioRasio varians terjelaskan yang akan dipertahankan. Nilai valid: (0, 1). Default: 0,9.
Parameters settingFeature decomposition modeMatriks yang digunakan untuk mendekomposisi fitur.
Parameters settingData conversion methodMetode yang digunakan untuk memproses data sebelum dekomposisi.
TuningLifecycleSiklus hidup tabel output. Harus berupa bilangan bulat positif.
TuningCoresJumlah core yang dialokasikan. Digunakan bersama dengan Memory size per node (Unit: MB). Nilai valid: [1, 9999].
TuningMemory size per node (Unit: MB)Memori per core, dalam MB. Nilai valid: [1024, 64 × 1024].

Metode 2: Gunakan perintah PAI

Jalankan perintah PAI melalui komponen SQL Script. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;

Parameter wajib

ParameterDeskripsi
inputTableNameTabel input yang digunakan untuk pelatihan.
selectedColNamesKolom yang dipilih untuk analisis. Pisahkan beberapa nama kolom dengan koma (,). Mendukung kolom bertipe data INT atau DOUBLE.
eigOutputTableNameTabel output yang berisi nilai eigen dan vektor eigen.
princompOutputTableNameTabel output setelah reduksi dimensi dan kebisingan komponen utama.

Parameter opsional

ParameterDeskripsiDefault
contriRateRasio varians terjelaskan yang akan dipertahankan. Nilai valid: (0, 1).0.9
transTypeMetode pra-pemrosesan data. Nilai valid: Simple, Sub-Mean, Normalization.Simple
calcuTypeMatriks dekomposisi fitur. Nilai valid: CORR, COVAR_SAMP, COVAR_POP.CORR
remainColumnsKolom dari tabel asli yang dibawa ke output setelah reduksi dimensi.None
coreNumJumlah core. Digunakan bersama dengan memSizePerCore. Nilai valid: [1, 9999].Ditentukan oleh sistem
memSizePerCoreMemori per core, dalam MB. Nilai valid: [1024, 64 × 1024].Ditentukan oleh sistem
lifecycleSiklus hidup tabel output. Harus berupa bilangan bulat positif.None

Contoh

Contoh berikut menggunakan tabel bank_data dengan tujuh kolom numerik (pdays, previous, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed) dan mempertahankan 90% varians terjelaskan menggunakan dekomposisi matriks korelasi.

Tabel output contoh

  • Tabel data setelah reduksi dimensi — berisi komponen utama yang dipertahankan sebagai kolom baru.降为数据表

  • Tabel nilai eigen — menampilkan nilai eigen dan rasio varians terjelaskan kumulatif untuk setiap komponen. Gunakan tabel ini untuk memastikan jumlah komponen yang dipertahankan dan apakah ambang batas contriRate telah tercapai.特征值和特征向量表