全部产品
Search
文档中心

Platform For AI:Pengambilan Sampel Berbobot

更新时间:Jun 22, 2025

Komponen Pengambilan Sampel Berbobot menghasilkan data pengambilan sampel berdasarkan nilai kolom yang diberi bobot. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT. Kolom yang diberi bobot diambil sampelnya berdasarkan nilainya. Sebagai contoh, jika nilai dua kolom yang diberi bobot adalah 1,2 dan 1,0, kolom dengan nilai 1,2 akan diprioritaskan untuk diambil sampelnya.

Konfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Pengambilan Sampel Berbobot.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Konfigurasikan parameter komponen pada halaman pipeline Machine Learning Designer.

Tab

Parameter

Deskripsi

Parameters Setting

Sample Size

Nilai harus berupa bilangan bulat positif.

Sampling Fraction

Nilai harus berupa bilangan desimal. Nilai valid: (0,1).

Sampling with Replacement

Secara default, kotak centang ini tidak dicentang. Jika Anda mencentang kotak ini, pengambilan sampel dengan pengembalian diaktifkan.

Weight Columns

Kolom yang diberi bobot. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT. Setiap nilai mewakili bobot dari sebuah catatan yang ada. Normalisasi tidak diperlukan.

Random Seed

Secara default, sistem menentukan nilainya.

Tuning

Cores

Nilai harus berupa bilangan bulat positif. Secara default, sistem menentukan nilainya.

Memory Size per Core

Nilai harus berupa bilangan bulat positif. Nilai valid: (1,65536). Secara default, sistem menentukan nilainya.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name WeightedSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -DprobCol="previous"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel input.

Tidak ada nilai default

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • Partition_name=value

  • name1=value1/name2=value2: partisi multi-level

null

Pisahkan beberapa partisi dengan koma (,)

Semua partisi

outputTableName

Ya

Nama tabel output.

Tidak ada nilai default

sampleSize

Tidak

Jumlah sampel.

null
  • Jika kedua parameter sampleSize dan sampleRatio kosong, kesalahan akan dikembalikan.

  • Jika kedua parameter sampleSize dan sampleRatio ditentukan, parameter sampleSize memiliki prioritas.

Tidak ada nilai default

sampleRatio

Tidak

Proporsi pengambilan sampel. Nilai harus berupa bilangan desimal. Nilai valid: (0,1).

Tidak ada nilai default

probCol

Ya

Kolom yang diberi bobot. Setiap nilai mewakili bobot dari sebuah catatan yang ada. Normalisasi tidak diperlukan. Nilai dari kolom yang diberi bobot harus bertipe DOUBLE atau BIGINT.

Tidak ada nilai default

replace

Tidak

Menentukan apakah akan mengaktifkan pengambilan sampel dengan pengembalian. Nilai harus bertipe BOOLEAN.

false, yang menunjukkan bahwa pengambilan sampel dengan pengembalian dinonaktifkan

randomSeed

Tidak

Seed acak. Nilai harus berupa bilangan bulat positif.

Ditentukan oleh sistem

lifecycle

Tidak

Lifecycle tabel output. Nilai valid: [1,3650].

Tidak ada nilai default

coreNum

Tidak

Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif.

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core. Nilai valid: (1,65536). Unit: MB.

Ditentukan oleh sistem