全部产品
Search
文档中心

Platform For AI:Analisis Komponen Utama (PCA)

更新时间:Jul 02, 2025

Analisis Komponen Utama (PCA) adalah metode statistik multivariat yang digunakan untuk mengeksplorasi struktur internal dari beberapa variabel dan hubungan korelasi di antara mereka berdasarkan komponen utama. PCA dapat digunakan untuk mengekstraksi komponen utama yang tidak saling berkorelasi dari variabel asli. Komponen-komponen ini mempertahankan sebagian besar informasi dari variabel asli dan berfungsi sebagai metrik komprehensif baru.

Batasan

Komponen Analisis Komponen Utama (PCA) hanya mendukung data dalam format padat. Komponen ini dapat digunakan untuk reduksi dimensi dan mengurangi kebisingan.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Analisis Komponen Utama (PCA).

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Analisis Komponen Utama (PCA) pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter-parameter tersebut.
TabParameterDeskripsi
Fields SettingFeature ColumnsKolom yang dipilih dari tabel input untuk analisis.
Appended ColumnsKolom yang ditambahkan ke tabel setelah reduksi dimensi.
Parameters SettingData Size RatioRasio retensi informasi setelah reduksi dimensi.
Feature Decomposition ModeMetode yang digunakan untuk mendekomposisi fitur. Nilai valid:
  • CORR
  • COVAR_SAMP
  • COVAR_POP
Data Conversion MethodMetode yang digunakan untuk mengonversi tipe data. Nilai valid:
  • Simple
  • Sub-Mean
  • Normalisasi
TuningLifecycleSiklus hidup tabel output. Nilainya harus bilangan bulat positif.
CoresJumlah core. Parameter ini digunakan bersama dengan parameter Memory Size per Node (Unit: MB). Nilainya harus bilangan bulat positif. Nilai valid: [1,9999].
Memory Size per Node (Unit: MB)Unit: MB. Ukuran memori setiap core. Nilainya harus bilangan bulat positif. Nilai valid: [1024,64 × 1024].

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;
ParameterDiperlukanDeskripsiNilai default
inputTableNameYaTabel input yang digunakan untuk pelatihan.Tidak ada nilai default
selectedColNamesYaKolom yang dipilih dari tabel input untuk analisis.

Pisahkan beberapa kolom dengan koma (,). Kolom dengan tipe data INT atau DOUBLE didukung.

Tidak ada nilai default
eigOutputTableNameYaTabel output yang berisi vektor fitur dan nilai fitur.Tidak ada nilai default
princompOutputTableNameYaTabel output setelah reduksi dimensi dan kebisingan dari komponen utama.Tidak ada nilai default
transTypeTidakMetode yang digunakan untuk mentransformasikan tabel asli menjadi tabel PCA. Nilai valid:
  • Simple
  • Sub-Mean
  • Normalisasi
Simple
calcuTypeTidakMetode yang digunakan untuk mendekomposisi fitur tabel asli. Nilai valid:
  • CORR
  • COVAR_SAMP
  • COVAR_POP
CORR
contriRateTidakRasio retensi informasi setelah reduksi dimensi. Nilai valid: (0,1).0.9
remainColumnsTidakBidang yang dipertahankan dari tabel asli setelah reduksi dimensi.Tidak ada nilai default
coreNumTidakJumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif. Nilai valid: [1,9999].Ditentukan oleh sistem
memSizePerCoreTidakUkuran memori setiap core. Unit: MB. Ukuran memori setiap core. Nilainya harus bilangan bulat positif. Nilai valid: [1024,64 × 1024].Ditentukan oleh sistem
lifecycleTidakSiklus hidup tabel output. Nilainya harus bilangan bulat positif.Tidak ada nilai default

Contoh

Tabel Output Sampel
  • Tabel data setelah reduksi dimensiData table after dimension reduction
  • Tabel yang berisi nilai fitur dan vektor fiturTable that contains feature values and feature vectors