全部产品
Search
文档中心

Platform For AI:Pengambilan Sampel Berlapis

更新时间:Jun 22, 2025

Pengambilan Sampel Berlapis adalah metode pengambilan sampel data yang membagi dataset menjadi beberapa strata atau kelompok berdasarkan kolom pengelompokan tertentu. Kemudian, dilakukan pengambilan sampel acak secara independen di dalam setiap kelompok. Metode ini memastikan bahwa setiap kelompok terwakili dengan baik dalam sampel, meningkatkan representasi keseluruhan, terutama ketika berhadapan dengan data yang tidak seimbang. Dengan demikian, pengambilan sampel berlapis membantu meningkatkan akurasi dan stabilitas pelatihan model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Tambahkan komponen Stratified Sampling pada halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Fields Setting

Stratification Column

Kolom yang digunakan untuk stratifikasi.

Parameters Setting

Sample Size

Nilai harus berupa bilangan bulat positif.

Sampling Fraction

Nilai harus berupa bilangan desimal. Nilai valid: (0,1).

Random Seed

Nilai dibuat secara otomatis oleh sistem. Nilai default adalah 1234567.

Tuning

Cores

Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilai tersebut.

Memory Size per Core

Nilai harus berupa bilangan bulat positif. Nilai valid: (1,65536). Secara default, sistem menentukan nilai tersebut.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name StratifiedSample
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DstrataColName="label"
    -DsampleSize="A:200,B:300,C:500"
    -DrandomSeed=1007
    -Dlifecycle=30;

Parameter

Diperlukan

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Semua partisi

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • Nama_Partisi=nilai

  • nama1=nilai1/nama2=nilai2: partisi multi-level

null

Pisahkan beberapa partisi dengan koma (,). Contoh: nama1=nilai1,nilai2.

outputTableName

Ya

Tidak ada

Nama tabel output.

strataColName

Ya

Tidak ada

Nama kolom yang digunakan sebagai kunci untuk stratifikasi.

sampleSize

Tidak

Tidak ada

Jumlah sampel.

  • Jika nilainya adalah bilangan bulat positif, itu menunjukkan jumlah sampel di setiap stratum.

  • Jika nilainya adalah string, string tersebut harus dalam format strata0:n0,strata1:n1. Nilai setelah titik dua (:) menunjukkan jumlah sampel yang perlu dikonfigurasi untuk stratum yang ditentukan sebelum titik dua (:).

null
  • Jika parameter sampleSize dan sampleRatio kosong, kesalahan akan dikembalikan.

  • Jika kedua parameter sampleSize dan sampleRatio ditentukan, parameter sampleSize memiliki prioritas.

sampleRatio

Tidak

Tidak ada

Proporsi pengambilan sampel.

  • Jika nilainya adalah angka, itu harus berupa bilangan desimal antara 0 dan 1, dan nilainya menunjukkan proporsi pengambilan sampel setiap stratum.

  • Jika nilainya adalah string, formatnya harus strata0:r0,strata1:r1. Nilai setelah titik dua (:) menunjukkan proporsi pengambilan sampel untuk stratum yang ditentukan sebelum titik dua (:).

randomSeed

Tidak

123456

Seed acak. Nilai harus berupa bilangan bulat positif.

lifecycle

Tidak

Tidak ada

Lifecycle tabel output. Nilai valid: [1,3650].

coreNum

Tidak

Ditentukan oleh sistem

Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif.

memSizePerCore

Tidak

Ditentukan oleh sistem

Ukuran memori setiap core. Nilai valid: (1,65536). Unit: MB.