Gunakan komponen Split untuk menghasilkan training set dan test set - Platform For AI: Split

Machine Learning Designer dari Platform for AI (PAI) menyediakan Komponen Split yang digunakan untuk membagi data secara acak berdasarkan proporsi atau ambang batas guna menghasilkan set pelatihan dan data pengujian.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi Komponen Split. Setelah konfigurasi selesai, dua tabel data akan dihasilkan sesuai dengan pengaturan yang ditentukan.

Metode 1: Gunakan Konsol PAI

Di halaman detail pipeline, temukan komponen Split dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu hubungkan ke node hulu. Selanjutnya, klik komponen Split untuk mengonfigurasi parameter.

null

Jika Anda mengonfigurasi parameter untuk metode pembagian berdasarkan ambang batas dan metode pembagian berdasarkan proporsi, metode pembagian berdasarkan ambang batas akan diprioritaskan.

Tab	Parameter		Deskripsi
Parameters Setting	Splitting Method: Bagi Berdasarkan Rasio	Splitting Fraction	Proporsi data di Tabel Output 1 terhadap data asli. Nilai valid: (0,1).
		Random Seed	Seed acak dapat menetapkan status generator acak. Ini membantu mencapai hasil pembagian data yang sama untuk pipeline yang dijalankan beberapa kali berdasarkan seed acak yang sama. Jika Anda tidak mengonfigurasi parameter ini, sistem akan secara otomatis menghasilkan nilai.
		ID Column (Do Not Split Columns with the Same ID)	Anda hanya dapat mengonfigurasi parameter ini jika Anda memilih Advanced Options. Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Output Table 1 atau Output Table 2.
	Splitting Method: Bagi Berdasarkan Ambang Batas	Threshold Column	Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas.
		Threshold	Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Output Table 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Output Table 2 lebih besar dari atau sama dengan ambang batas.
Tuning	Cores		Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan. Secara default, sistem menentukan nilainya.
	Memory Size per Core		Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Unit: MB. Secara default, sistem menentukan nilainya.

Metode 2: Jalankan Perintah PAI

Di halaman detail pipeline, temukan komponen SQL Script dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu klik untuk mengonfigurasi parameter. Di panel Pengaturan Parameter, hapus centang pada Whether the system adds a create table statement, masukkan skrip berikut di editor teks SQL Script, dan jalankan perintah PAI untuk menyelesaikan konfigurasi. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

null

Anda tidak dapat mengonfigurasi parameter untuk metode pembagian berdasarkan proporsi dan metode pembagian berdasarkan ambang batas secara bersamaan.

Kategori	Parameter	Diperlukan	Deskripsi	Nilai Default
Parameter Umum	inputTableName	Ya	Nama tabel input.	Tidak ada
	inputTablePartitions	Tidak	Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung: Partition_name=value name1=value1/name2=value2: partisi multi-level null Jika Anda menentukan beberapa partisi, pisahkan partisi dengan koma (,).	Semua partisi
	output1TableName	Ya	Tabel Output 1.	Tidak ada
	output1TablePartition	Tidak	Nama partisi di Tabel Output 1.	Tabel non-partisi
	output2TableName	Ya	Tabel Output 2.	Tidak ada
	output2TablePartition	Tidak	Nama partisi di Tabel Output 2.	Tabel non-partisi
	lifecycle	Tidak	Lifecycle tabel output. Nilai valid: [1,3650].	Tidak ada
	coreNum	Tidak	Jumlah core. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan.	Secara default ditetapkan otomatis
	memSizePerCore	Tidak	Ukuran memori setiap core. Unit: MB. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Nilai valid: (1, 65536).	Secara default ditetapkan otomatis
Parameter Pembagian Berdasarkan Rasio	fraction	Ya	Proporsi data di Tabel Output 1. Nilai valid: (0,1).	Tidak ada
	randomSeed	Tidak	Seed acak. Nilainya harus bilangan bulat positif.	Secara default ditetapkan otomatis
	idColName	Tidak	Kolom ID. Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Tabel Output 1 atau Tabel Output 2.	Tidak ada
Parameter Pembagian Berdasarkan Ambang Batas	thresholdColName	Ya	Kolom ambang batas. Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas.	Tidak ada
Parameter Pembagian Berdasarkan Ambang Batas	threshold	Ya	Ambang batas. Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Tabel Output 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Tabel Output 2 lebih besar dari atau sama dengan ambang batas.	Tidak ada