Machine Learning Designer dari Platform for AI (PAI) menyediakan Komponen Split yang digunakan untuk membagi data secara acak berdasarkan proporsi atau ambang batas guna menghasilkan set pelatihan dan data pengujian.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi Komponen Split. Setelah konfigurasi selesai, dua tabel data akan dihasilkan sesuai dengan pengaturan yang ditentukan.
Metode 1: Gunakan Konsol PAI
Di halaman detail pipeline, temukan komponen Split dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu hubungkan ke node hulu. Selanjutnya, klik komponen Split untuk mengonfigurasi parameter.
Jika Anda mengonfigurasi parameter untuk metode pembagian berdasarkan ambang batas dan metode pembagian berdasarkan proporsi, metode pembagian berdasarkan ambang batas akan diprioritaskan.
Tab | Parameter | Deskripsi | |
Parameters Setting | Splitting Method: Bagi Berdasarkan Rasio | Splitting Fraction | Proporsi data di Tabel Output 1 terhadap data asli. Nilai valid: (0,1). |
Random Seed | Seed acak dapat menetapkan status generator acak. Ini membantu mencapai hasil pembagian data yang sama untuk pipeline yang dijalankan beberapa kali berdasarkan seed acak yang sama. Jika Anda tidak mengonfigurasi parameter ini, sistem akan secara otomatis menghasilkan nilai. | ||
ID Column (Do Not Split Columns with the Same ID) | Anda hanya dapat mengonfigurasi parameter ini jika Anda memilih Advanced Options. Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Output Table 1 atau Output Table 2. | ||
Splitting Method: Bagi Berdasarkan Ambang Batas | Threshold Column | Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas. | |
Threshold | Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Output Table 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Output Table 2 lebih besar dari atau sama dengan ambang batas. | ||
Tuning | Cores | Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan. Secara default, sistem menentukan nilainya. | |
Memory Size per Core | Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Unit: MB. Secara default, sistem menentukan nilainya. | ||
Metode 2: Jalankan Perintah PAI
Di halaman detail pipeline, temukan komponen SQL Script dalam daftar komponen di sisi kiri, seret komponen ke kanvas, lalu klik untuk mengonfigurasi parameter. Di panel Pengaturan Parameter, hapus centang pada Whether the system adds a create table statement, masukkan skrip berikut di editor teks SQL Script, dan jalankan perintah PAI untuk menyelesaikan konfigurasi. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name split -project algo_public
-DinputTableName=wbpc
-Doutput1TableName=wpbc_split1
-Doutput2TableName=wpbc_split2
-Dfraction=0.25;Anda tidak dapat mengonfigurasi parameter untuk metode pembagian berdasarkan proporsi dan metode pembagian berdasarkan ambang batas secara bersamaan.
Kategori | Parameter | Diperlukan | Deskripsi | Nilai Default |
Parameter Umum | inputTableName | Ya | Nama tabel input. | Tidak ada |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
null Jika Anda menentukan beberapa partisi, pisahkan partisi dengan koma (,). | Semua partisi | |
output1TableName | Ya | Tabel Output 1. | Tidak ada | |
output1TablePartition | Tidak | Nama partisi di Tabel Output 1. | Tabel non-partisi | |
output2TableName | Ya | Tabel Output 2. | Tidak ada | |
output2TablePartition | Tidak | Nama partisi di Tabel Output 2. | Tabel non-partisi | |
lifecycle | Tidak | Lifecycle tabel output. Nilai valid: [1,3650]. | Tidak ada | |
coreNum | Tidak | Jumlah core. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan core yang digunakan untuk pelatihan berdasarkan jumlah data masukan. | Secara default ditetapkan otomatis | |
memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Parameter ini adalah parameter penyetelan. Sistem secara otomatis mengalokasikan memori berdasarkan jumlah data masukan. Nilai valid: (1, 65536). | Secara default ditetapkan otomatis | |
Parameter Pembagian Berdasarkan Rasio | fraction | Ya | Proporsi data di Tabel Output 1. Nilai valid: (0,1). | Tidak ada |
randomSeed | Tidak | Seed acak. Nilainya harus bilangan bulat positif. | Secara default ditetapkan otomatis | |
idColName | Tidak | Kolom ID. Anda hanya dapat memilih satu kolom. Data di kolom yang memiliki ID yang sama tidak dipisahkan tetapi dialokasikan secara acak ke Tabel Output 1 atau Tabel Output 2. | Tidak ada | |
Parameter Pembagian Berdasarkan Ambang Batas | thresholdColName | Ya | Kolom ambang batas. Data di kolom ini dibagi berdasarkan ambang batas. Data di kolom tipe STRING tidak dapat dibagi berdasarkan ambang batas. | Tidak ada |
threshold | Ya | Ambang batas. Data di kolom ambang batas sepenuhnya dibagi berdasarkan ambang batas. Nilai di kolom ambang batas di Tabel Output 1 kurang dari ambang batas, dan nilai di kolom ambang batas di Tabel Output 2 lebih besar dari atau sama dengan ambang batas. | Tidak ada |