Algoritma pemutaran data digunakan untuk memvisualisasikan dataset dan mengeksplorasi metode analitik dalam pembelajaran mesin. Algoritma ini menggunakan grafik, tabel, atau alat visual lainnya untuk menampilkan struktur, distribusi, dan hubungan data. Hal ini membantu pengguna memahami karakteristik data, mengenali pola, serta mengidentifikasi pengecualian. Algoritma pemutaran data sangat penting dalam pra-pemrosesan data dan rekayasa fitur, memberikan referensi yang jelas dan intuitif untuk pemodelan dan analisis.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Di halaman detail pipeline di Machine Learning Designer, tambahkan komponen Data Pivoting ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.
Tab | Parameter | Deskripsi |
Fields Setting | Kolom Fitur | Kolom fitur yang akan divisualisasikan atau dianalisis. Distribusi dan hubungan fitur ditampilkan dalam grafik atau tabel. |
Kolom Target | Kolom yang ingin Anda gunakan untuk prediksi atau analisis. Kolom ini biasanya merujuk pada tag atau variabel respons. | |
Fitur Enumerasi | Fitur yang ingin Anda gunakan sebagai fitur enumerasi. | |
Format Sparse (K:V,K:V) | Menentukan apakah data dalam format sparse digunakan. | |
Parameters Setting | Interval Diskritisasi Fitur Kontinu | Jumlah maksimum interval diskrit ke dalam mana fitur kontinu dibagi. |
Tuning | Cores | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. |
Ukuran Memori per Core | Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.
PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTable | Ya | Tidak ada | Nama tabel input. |
inputTablePartitions | Tidak | Tidak ada | Partisi yang dipilih dari tabel input untuk pelatihan. Nilai valid:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, name1=value1,value2. |
outputTable | Ya | Tidak ada | Nama tabel output. |
mapTable | Ya | Tidak ada | Tabel pemetaan output. Komponen Data Pivoting memetakan data tipe STRING ke tipe INT untuk PAI gunakan dalam pelatihan. |
selectedCols | Ya | Tidak ada | Kolom yang dipilih dari tabel input. |
labelCol | Tidak | Tidak ada | Kolom yang ingin Anda gunakan untuk pelatihan. |
categoryCols | Tidak | Tidak ada | Kolom tipe INT atau DOUBLE yang ingin Anda gunakan sebagai fitur enumerasi. |
maxBins | Tidak | 100 | Jumlah maksimum interval untuk pembagian jarak sama fitur kontinu. |
isSparse | Tidak | false | Menentukan apakah data input bersifat sparse. Nilai valid: true and false. |
itemSpliter | Tidak | , | Delimiter yang digunakan untuk memisahkan pasangan key-value jika data dalam tabel input berada dalam format sparse. |
kvSpliter | Tidak | : | Delimiter yang digunakan untuk memisahkan keys dan values jika data dalam tabel input berada dalam format sparse. |
lifecycle | Tidak | 28 | Lifecycle tabel output. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. Nilai valid: 1 hingga 9999. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB. |
Contoh
Hasilkan data uji berikut.
usia
pekerjaan
fwlght
pendidikan
edu_num
menikah
c
keluarga
ras
jenis kelamin
gail
loss
tahun kerja
negara
pendapatan
39
State-gov
77516
Bachelors
13
Never-married
Adm-clerical
Not-in-family
White
Male
2174.0
0.0
40.0
United-States
<=50K
50
Self-emp-not-inc
83311
Bachelors
13
Married-civ-spouse
Exec-managerial
Husband
White
Male
0.0
0.0
13.0
United-States
<=50K
38
Private
215646
HS-grad
9
Divorced
Handlers-cleaners
Not-in-family
White
Male
0.0
0.0
40.0
United-States
<=50K
53
Private
234721
11th
7
Married-civ-spouse
Handlers-cleaners
Husband
Black
Male
0.0
0.0
40.0
United-States
<=50K
28
Private
338409
Bachelors
13
Married-civ-spouse
Prof-specialty
Wife
Black
Female
0.0
0.0
40.0
Other
<=50K
37
Private
284582
Masters
14
Married-civ-spouse
Exec-managerial
Wife
White
Female
0.0
0.0
40.0
United-States
<=50K
49
Private
160187
9th
5
Married-spouse-absent
Other-service
Not-in-family
Black
Female
0.0
0.0
16.0
Jamaica
<=50K
52
Self-emp-not-inc
209642
HS-grad
9
Married-civ-spouse
Exec-managerial
Husband
White
Male
0.0
0.0
45.0
United-States
>50K
31
Private
45781
Masters
14
Never-married
Prof-specialty
Not-in-family
White
Female
14084.0
0.0
50.0
United-States
>50K
42
Private
159449
Bachelors
13
Married-civ-spouse
Exec-managerial
Husband
White
Male
5178.0
0.0
40.0
United-States
>50K
Tambahkan komponen Read Table dan Data Pivoting, lalu hubungkan komponen-komponen tersebut.

Klik komponen Data Pivoting, lalu klik tab Fields Setting. Atur parameter Target Column ke income dan tentukan 14 kolom lainnya untuk parameter Feature Columns. Nilai tipe BIGINT dalam kolom edu_num digunakan sebagai nilai enumerasi.

Pada toolbar pipeline, klik
.Setelah pipeline dijalankan, lihat hasil pelatihan.
Klik kanan Data Pivoting dan pilih . Nilai dalam kolom family, race, sex, dan income dengan tipe data STRING dikonversi menjadi nilai numerik untuk digunakan oleh PAI dalam pelatihan. Ini mirip dengan konversi format data.

Klik kanan Data Pivoting dan pilih .
CatatanJika Anda tidak menentukan data tipe STRING untuk parameter Feature Columns, parameter String Column Feature Mapping Table dibiarkan kosong dalam output.

Klik kanan Data Pivoting dan pilih .
distribute_info menunjukkan jumlah rekaman dalam setiap interval berdasarkan distribusi seragam antara nilai maksimum dan minimum.