Komponen Pengambilan Sampel Berbobot menghasilkan data pengambilan sampel berdasarkan nilai kolom yang diberi bobot. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT. Kolom yang diberi bobot diambil sampelnya berdasarkan nilainya. Sebagai contoh, jika nilai dua kolom yang diberi bobot adalah 1,2 dan 1,0, kolom dengan nilai 1,2 akan diprioritaskan untuk diambil sampelnya.
Konfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pengambilan Sampel Berbobot.
Metode 1: Konfigurasikan komponen pada halaman pipeline
Konfigurasikan parameter komponen pada halaman pipeline Machine Learning Designer.
Tab | Parameter | Deskripsi |
Parameters Setting | Sample Size | Nilai harus berupa bilangan bulat positif. |
Sampling Fraction | Nilai harus berupa bilangan desimal. Nilai valid: (0,1). | |
Sampling with Replacement | Secara default, kotak centang ini tidak dicentang. Jika Anda mencentang kotak ini, pengambilan sampel dengan pengembalian diaktifkan. | |
Weight Columns | Kolom yang diberi bobot. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT. Setiap nilai mewakili bobot dari sebuah catatan yang ada. Normalisasi tidak diperlukan. | |
Random Seed | Secara default, sistem menentukan nilainya. | |
Tuning | Cores | Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilainya. |
Memory Size per Core | Nilai harus berupa bilangan bulat positif. Nilai valid: (1,65536). Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name WeightedSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-DprobCol="previous"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";Parameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel input. | Tidak ada nilai default |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
null Pisahkan beberapa partisi dengan koma (,) | Semua partisi |
outputTableName | Ya | Nama tabel output. | Tidak ada nilai default |
sampleSize | Tidak | Jumlah sampel. null
| Tidak ada nilai default |
sampleRatio | Tidak | Proporsi pengambilan sampel. Nilai harus berupa bilangan desimal. Nilai valid: (0,1). | Tidak ada nilai default |
probCol | Ya | Kolom yang diberi bobot. Setiap nilai mewakili bobot dari sebuah catatan yang ada. Normalisasi tidak diperlukan. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT. | Tidak ada nilai default |
replace | Tidak | Menentukan apakah akan mengaktifkan pengambilan sampel dengan pengembalian. Nilai harus bertipe BOOLEAN. | false, yang menunjukkan bahwa pengambilan sampel dengan pengembalian dinonaktifkan |
randomSeed | Tidak | Seed acak. Nilai harus berupa bilangan bulat positif. | Ditentukan oleh sistem |
lifecycle | Tidak | Lifecycle tabel output. Nilai valid: [1,3650]. | Tidak ada nilai default |
coreNum | Tidak | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core. Nilai valid: (1,65536). Unit: MB. | Ditentukan oleh sistem |