全部产品
Search
文档中心

Platform For AI:Kovariansi

更新时间:Jul 02, 2025

Algoritma kovariansi adalah metode statistik yang digunakan untuk mengukur hubungan linear antara dua variabel acak. Algoritma ini mengevaluasi bagaimana kedua variabel tersebut bervariasi secara bersamaan dengan menghitung nilai harapan dari produk deviasi mereka. Kovariansi memiliki peran penting dalam teori probabilitas dan statistik, serta banyak digunakan dalam pembelajaran mesin untuk tugas-tugas seperti pemilihan fitur dan pra-pemrosesan data.

Deskripsi algoritma

Definisi

Kovariansi didefinisikan sebagai nilai harapan dari produk deviasi dua variabel acak. Rumus:

  • X dan Y adalah dua variabel acak.

  • μ dan ν adalah nilai harapan dari X dan Y, masing-masing.

  • E adalah operasi harapan.

Properti

  • Kovariansi positif: Menunjukkan bahwa kedua variabel memiliki korelasi positif, artinya ketika satu variabel meningkat, variabel lainnya juga cenderung meningkat.

  • Kovariansi negatif: Menunjukkan bahwa kedua variabel memiliki korelasi negatif, artinya ketika satu variabel meningkat, variabel lainnya cenderung menurun.

  • Kovariansi nol: Menunjukkan bahwa kedua variabel tidak memiliki hubungan linear.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Tambahkan komponen Covariance di halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Fields Setting

Input Columns

Kolom input. Anda hanya dapat memilih kolom bertipe BIGINT atau DOUBLE.

Tuning

Cores

Jumlah inti yang digunakan dalam komputasi. Jika Anda tidak menentukan parameter ini, sistem akan secara otomatis mengalokasikan jumlah inti.

Memory Size

Ukuran memori setiap inti. Jika Anda tidak menentukan parameter ini, sistem akan secara otomatis mengalokasikan ukuran memori. Satuan: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name cov
    -project algo_public
    -DinputTableName=maple_test_cov_basic12x10_input
    -DoutputTableName=maple_test_cov_basic12x10_output
    -DcoreNum=6
    -DmemSizePerCore=110;

Parameter

Diperlukan

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Semua partisi tabel input

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, name1=value1,value2.

outputTableName

Ya

Tidak ada

Nama tabel output.

selectedColNames

Tidak

Semua kolom

Kolom yang dipilih dari tabel input.

lifecycle

Tidak

Tidak ada

Lifecycle tabel output.

coreNum

Tidak

Ditentukan oleh sistem

Jumlah inti yang digunakan dalam komputasi. Nilainya harus bilangan bulat positif. Nilai valid: 1 hingga 9999.

memSizePerCore

Tidak

Ditentukan oleh sistem

Ukuran memori setiap inti. Nilai valid: 1 hingga 65536. Satuan: MB.