Analisis Komponen Utama (PCA) adalah metode statistik multivariat yang digunakan untuk mengeksplorasi struktur internal dari beberapa variabel dan hubungan korelasi di antara mereka berdasarkan komponen utama. PCA dapat digunakan untuk mengekstraksi komponen utama yang tidak saling berkorelasi dari variabel asli. Komponen-komponen ini mempertahankan sebagian besar informasi dari variabel asli dan berfungsi sebagai metrik komprehensif baru.
Batasan
Komponen Analisis Komponen Utama (PCA) hanya mendukung data dalam format padat. Komponen ini dapat digunakan untuk reduksi dimensi dan mengurangi kebisingan.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Analisis Komponen Utama (PCA).
Metode 1: Konfigurasikan komponen pada halaman pipeline
| Tab | Parameter | Deskripsi |
| Fields Setting | Feature Columns | Kolom yang dipilih dari tabel input untuk analisis. |
| Appended Columns | Kolom yang ditambahkan ke tabel setelah reduksi dimensi. | |
| Parameters Setting | Data Size Ratio | Rasio retensi informasi setelah reduksi dimensi. |
| Feature Decomposition Mode | Metode yang digunakan untuk mendekomposisi fitur. Nilai valid:
| |
| Data Conversion Method | Metode yang digunakan untuk mengonversi tipe data. Nilai valid:
| |
| Tuning | Lifecycle | Siklus hidup tabel output. Nilainya harus bilangan bulat positif. |
| Cores | Jumlah core. Parameter ini digunakan bersama dengan parameter Memory Size per Node (Unit: MB). Nilainya harus bilangan bulat positif. Nilai valid: [1,9999]. | |
| Memory Size per Node (Unit: MB) | Unit: MB. Ukuran memori setiap core. Nilainya harus bilangan bulat positif. Nilai valid: [1024,64 × 1024]. |
Metode 2: Gunakan perintah PAI
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;| Parameter | Diperlukan | Deskripsi | Nilai default |
| inputTableName | Ya | Tabel input yang digunakan untuk pelatihan. | Tidak ada nilai default |
| selectedColNames | Ya | Kolom yang dipilih dari tabel input untuk analisis. Pisahkan beberapa kolom dengan koma (,). Kolom dengan tipe data INT atau DOUBLE didukung. | Tidak ada nilai default |
| eigOutputTableName | Ya | Tabel output yang berisi vektor fitur dan nilai fitur. | Tidak ada nilai default |
| princompOutputTableName | Ya | Tabel output setelah reduksi dimensi dan kebisingan dari komponen utama. | Tidak ada nilai default |
| transType | Tidak | Metode yang digunakan untuk mentransformasikan tabel asli menjadi tabel PCA. Nilai valid:
| Simple |
| calcuType | Tidak | Metode yang digunakan untuk mendekomposisi fitur tabel asli. Nilai valid:
| CORR |
| contriRate | Tidak | Rasio retensi informasi setelah reduksi dimensi. Nilai valid: (0,1). | 0.9 |
| remainColumns | Tidak | Bidang yang dipertahankan dari tabel asli setelah reduksi dimensi. | Tidak ada nilai default |
| coreNum | Tidak | Jumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif. Nilai valid: [1,9999]. | Ditentukan oleh sistem |
| memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Ukuran memori setiap core. Nilainya harus bilangan bulat positif. Nilai valid: [1024,64 × 1024]. | Ditentukan oleh sistem |
| lifecycle | Tidak | Siklus hidup tabel output. Nilainya harus bilangan bulat positif. | Tidak ada nilai default |
Contoh
- Tabel data setelah reduksi dimensi

- Tabel yang berisi nilai fitur dan vektor fitur
