全部产品
Search
文档中心

Platform For AI:Split

更新时间:Jun 22, 2025

Machine Learning Designer dari Platform for AI (PAI) menyediakan Komponen Split yang digunakan untuk membagi data secara acak berdasarkan proporsi atau ambang batas guna menghasilkan set pelatihan dan data pengujian.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi Komponen Split. Setelah konfigurasi selesai, dua tabel data akan dihasilkan sesuai dengan pengaturan yang ditentukan.

Metode 1: Gunakan Konsol PAI

Di halaman detail pipeline, temukan komponen Split dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu hubungkan ke node hulu. Selanjutnya, klik komponen Split untuk mengonfigurasi parameter.

null

Jika Anda mengonfigurasi parameter untuk metode pembagian berdasarkan ambang batas dan metode pembagian berdasarkan proporsi, metode pembagian berdasarkan ambang batas akan diprioritaskan.

Tab

Parameter

Deskripsi

Parameters Setting

Splitting Method: Bagi Berdasarkan Rasio

Splitting Fraction

Proporsi data di Tabel Output 1 terhadap data asli. Nilai valid: (0,1).

Random Seed

Seed acak dapat menetapkan status generator acak. Ini membantu mencapai hasil pembagian data yang sama untuk pipeline yang dijalankan beberapa kali berdasarkan seed acak yang sama. Jika Anda tidak mengonfigurasi parameter ini, sistem akan secara otomatis menghasilkan nilai.

ID Column (Do Not Split Columns with the Same ID)

Anda hanya dapat mengonfigurasi parameter ini jika Anda memilih Advanced Options.

Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Output Table 1 atau Output Table 2.

Splitting Method: Bagi Berdasarkan Ambang Batas

Threshold Column

Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas.

Threshold

Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Output Table 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Output Table 2 lebih besar dari atau sama dengan ambang batas.

Tuning

Cores

Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan. Secara default, sistem menentukan nilainya.

Memory Size per Core

Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Unit: MB. Secara default, sistem menentukan nilainya.

Metode 2: Jalankan Perintah PAI

Di halaman detail pipeline, temukan komponen SQL Script dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu klik untuk mengonfigurasi parameter. Di panel Pengaturan Parameter, hapus centang pada Whether the system adds a create table statement, masukkan skrip berikut di editor teks SQL Script, dan jalankan perintah PAI untuk menyelesaikan konfigurasi. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;
null

Anda tidak dapat mengonfigurasi parameter untuk metode pembagian berdasarkan proporsi dan metode pembagian berdasarkan ambang batas secara bersamaan.

Kategori

Parameter

Diperlukan

Deskripsi

Nilai Default

Parameter Umum

inputTableName

Ya

Nama tabel input.

Tidak ada

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:

  • Partition_name=value

  • name1=value1/name2=value2: partisi multi-level

null

Jika Anda menentukan beberapa partisi, pisahkan partisi dengan koma (,).

Semua partisi

output1TableName

Ya

Tabel Output 1.

Tidak ada

output1TablePartition

Tidak

Nama partisi di Tabel Output 1.

Tabel non-partisi

output2TableName

Ya

Tabel Output 2.

Tidak ada

output2TablePartition

Tidak

Nama partisi di Tabel Output 2.

Tabel non-partisi

lifecycle

Tidak

Lifecycle tabel output. Nilai valid: [1,3650].

Tidak ada

coreNum

Tidak

Jumlah core. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan.

Secara default ditetapkan otomatis

memSizePerCore

Tidak

Ukuran memori setiap core. Unit: MB. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Nilai valid: (1, 65536).

Secara default ditetapkan otomatis

Parameter Pembagian Berdasarkan Rasio

fraction

Ya

Proporsi data di Tabel Output 1. Nilai valid: (0,1).

Tidak ada

randomSeed

Tidak

Seed acak. Nilainya harus bilangan bulat positif.

Secara default ditetapkan otomatis

idColName

Tidak

Kolom ID. Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Tabel Output 1 atau Tabel Output 2.

Tidak ada

Parameter Pembagian Berdasarkan Ambang Batas

thresholdColName

Ya

Kolom ambang batas. Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas.

Tidak ada

threshold

Ya

Ambang batas. Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Tabel Output 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Tabel Output 2 lebih besar dari atau sama dengan ambang batas.

Tidak ada