Algoritma kovariansi adalah metode statistik yang digunakan untuk mengukur hubungan linear antara dua variabel acak. Algoritma ini mengevaluasi bagaimana kedua variabel tersebut bervariasi secara bersamaan dengan menghitung nilai harapan dari produk deviasi mereka. Kovariansi memiliki peran penting dalam teori probabilitas dan statistik, serta banyak digunakan dalam pembelajaran mesin untuk tugas-tugas seperti pemilihan fitur dan pra-pemrosesan data.
Deskripsi algoritma
Definisi
Kovariansi didefinisikan sebagai nilai harapan dari produk deviasi dua variabel acak. Rumus:
X dan Y adalah dua variabel acak.
μ dan ν adalah nilai harapan dari X dan Y, masing-masing.
E adalah operasi harapan.
Properti
Kovariansi positif: Menunjukkan bahwa kedua variabel memiliki korelasi positif, artinya ketika satu variabel meningkat, variabel lainnya juga cenderung meningkat.
Kovariansi negatif: Menunjukkan bahwa kedua variabel memiliki korelasi negatif, artinya ketika satu variabel meningkat, variabel lainnya cenderung menurun.
Kovariansi nol: Menunjukkan bahwa kedua variabel tidak memiliki hubungan linear.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Tambahkan komponen Covariance di halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Fields Setting | Input Columns | Kolom input. Anda hanya dapat memilih kolom bertipe BIGINT atau DOUBLE. |
Tuning | Cores | Jumlah inti yang digunakan dalam komputasi. Jika Anda tidak menentukan parameter ini, sistem akan secara otomatis mengalokasikan jumlah inti. |
Memory Size | Ukuran memori setiap inti. Jika Anda tidak menentukan parameter ini, sistem akan secara otomatis mengalokasikan ukuran memori. Satuan: MB. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name cov
-project algo_public
-DinputTableName=maple_test_cov_basic12x10_input
-DoutputTableName=maple_test_cov_basic12x10_output
-DcoreNum=6
-DmemSizePerCore=110;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Semua partisi tabel input | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, name1=value1,value2. |
outputTableName | Ya | Tidak ada | Nama tabel output. |
selectedColNames | Tidak | Semua kolom | Kolom yang dipilih dari tabel input. |
lifecycle | Tidak | Tidak ada | Lifecycle tabel output. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah inti yang digunakan dalam komputasi. Nilainya harus bilangan bulat positif. Nilai valid: 1 hingga 9999. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap inti. Nilai valid: 1 hingga 65536. Satuan: MB. |