全部产品
Search
文档中心

Platform For AI:Pengambilan Sampel Acak

更新时间:Jul 02, 2025

Pengambilan Sampel Acak adalah teknik untuk mengekstraksi sampel dari kumpulan data input. Teknik ini melibatkan pemilihan sampel secara acak berdasarkan rasio atau jumlah tertentu untuk menghasilkan subset. Setiap proses pengambilan sampel bersifat independen, memastikan bahwa setiap sampel memiliki probabilitas yang sama untuk dipilih, dan pemilihan satu sampel tidak mempengaruhi pemilihan sampel lainnya. Metode ini umum digunakan untuk membuat kumpulan data pelatihan dan pengujian, memastikan keadilan dan representasi dalam evaluasi model, serta sangat cocok untuk pemrosesan data skala besar.

Konfigurasi komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Tambahkan komponen Random Sampling di halaman pipeline dan konfigurasikan parameter berikut:

Kategori

Parameter

Deskripsi

Parameters Setting

Sample Size

Nilai harus berupa bilangan bulat positif.

Sampling Fraction

Nilai harus berupa bilangan desimal. Nilai valid: (0,1).

Sampling with Replacement

Selama proses pengambilan sampel acak, setiap sampel yang dipilih dikembalikan ke kumpulan data asli, sehingga sampel tersebut dapat dipilih lagi dalam pengambilan sampel berikutnya.

Random Seed

Secara default, sistem menentukan nilainya.

Tuning

Cores

Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilainya.

Memory Size per Core

Nilai harus berupa bilangan bulat positif. Satuan: MB. Nilai valid: (1,65536). Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

Parameter

Diperlukan

Nilai default

Deskripsi

inputTableName

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Tidak ada

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Pisahkan beberapa partisi dengan koma (,). Contoh: name1=value1,value2.

outputTableName

Ya

Tidak ada

Nama tabel output.

sampleSize

Tidak

Tidak ada

Jumlah sampel.

Catatan
  • Jika parameter sampleSize dan sampleRatio kosong, kesalahan akan dikembalikan.

  • Jika kedua parameter sampleSize dan sampleRatio ditentukan, parameter sampleSize memiliki prioritas.

sampleRatio

Tidak

Tidak ada

Proporsi pengambilan sampel. Nilai harus berupa bilangan desimal. Nilai valid: (0,1).

replace

Tidak

false

Menentukan apakah pengambilan sampel dengan pengembalian diaktifkan. Nilai harus bertipe BOOLEAN.

randomSeed

Tidak

Ditentukan oleh sistem

Seed acak. Nilai harus berupa bilangan bulat positif.

lifecycle

Tidak

Tidak ada

Lifecycle tabel output. Nilai valid: [1,3650].

coreNum

Tidak

Ditentukan oleh sistem

Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif.

memSizePerCore

Tidak

Ditentukan oleh sistem

Ukuran memori setiap core. Nilai valid: (1,65536). Satuan: MB.