Pengambilan Sampel Acak adalah teknik untuk mengekstraksi sampel dari kumpulan data input. Teknik ini melibatkan pemilihan sampel secara acak berdasarkan rasio atau jumlah tertentu untuk menghasilkan subset. Setiap proses pengambilan sampel bersifat independen, memastikan bahwa setiap sampel memiliki probabilitas yang sama untuk dipilih, dan pemilihan satu sampel tidak mempengaruhi pemilihan sampel lainnya. Metode ini umum digunakan untuk membuat kumpulan data pelatihan dan pengujian, memastikan keadilan dan representasi dalam evaluasi model, serta sangat cocok untuk pemrosesan data skala besar.
Konfigurasi komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Tambahkan komponen Random Sampling di halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Parameters Setting | Sample Size | Nilai harus berupa bilangan bulat positif. |
Sampling Fraction | Nilai harus berupa bilangan desimal. Nilai valid: (0,1). | |
Sampling with Replacement | Selama proses pengambilan sampel acak, setiap sampel yang dipilih dikembalikan ke kumpulan data asli, sehingga sampel tersebut dapat dipilih lagi dalam pengambilan sampel berikutnya. | |
Random Seed | Secara default, sistem menentukan nilainya. | |
Tuning | Cores | Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilainya. |
Memory Size per Core | Nilai harus berupa bilangan bulat positif. Satuan: MB. Nilai valid: (1,65536). Secara default, sistem menentukan nilainya. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Tidak ada | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Pisahkan beberapa partisi dengan koma (,). Contoh: name1=value1,value2. |
outputTableName | Ya | Tidak ada | Nama tabel output. |
sampleSize | Tidak | Tidak ada | Jumlah sampel. Catatan
|
sampleRatio | Tidak | Tidak ada | Proporsi pengambilan sampel. Nilai harus berupa bilangan desimal. Nilai valid: (0,1). |
replace | Tidak | false | Menentukan apakah pengambilan sampel dengan pengembalian diaktifkan. Nilai harus bertipe BOOLEAN. |
randomSeed | Tidak | Ditentukan oleh sistem | Seed acak. Nilai harus berupa bilangan bulat positif. |
lifecycle | Tidak | Tidak ada | Lifecycle tabel output. Nilai valid: [1,3650]. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Nilai valid: (1,65536). Satuan: MB. |