Pengambilan Sampel Berlapis adalah metode pengambilan sampel data yang membagi dataset menjadi beberapa strata atau kelompok berdasarkan kolom pengelompokan tertentu. Kemudian, dilakukan pengambilan sampel acak secara independen di dalam setiap kelompok. Metode ini memastikan bahwa setiap kelompok terwakili dengan baik dalam sampel, meningkatkan representasi keseluruhan, terutama ketika berhadapan dengan data yang tidak seimbang. Dengan demikian, pengambilan sampel berlapis membantu meningkatkan akurasi dan stabilitas pelatihan model.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Tambahkan komponen Stratified Sampling pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Fields Setting | Stratification Column | Kolom yang digunakan untuk stratifikasi. |
Parameters Setting | Sample Size | Nilai harus berupa bilangan bulat positif. |
Sampling Fraction | Nilai harus berupa bilangan desimal. Nilai valid: (0,1). | |
Random Seed | Nilai dibuat secara otomatis oleh sistem. Nilai default adalah 1234567. | |
Tuning | Cores | Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilai tersebut. |
Memory Size per Core | Nilai harus berupa bilangan bulat positif. Nilai valid: (1,65536). Secara default, sistem menentukan nilai tersebut. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name StratifiedSample
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DstrataColName="label"
-DsampleSize="A:200,B:300,C:500"
-DrandomSeed=1007
-Dlifecycle=30;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Semua partisi | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
null Pisahkan beberapa partisi dengan koma (,). Contoh: nama1=nilai1,nilai2. |
outputTableName | Ya | Tidak ada | Nama tabel output. |
strataColName | Ya | Tidak ada | Nama kolom yang digunakan sebagai kunci untuk stratifikasi. |
sampleSize | Tidak | Tidak ada | Jumlah sampel.
null
|
sampleRatio | Tidak | Tidak ada | Proporsi pengambilan sampel.
|
randomSeed | Tidak | 123456 | Seed acak. Nilai harus berupa bilangan bulat positif. |
lifecycle | Tidak | Tidak ada | Lifecycle tabel output. Nilai valid: [1,3650]. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Nilai valid: (1,65536). Unit: MB. |