全部产品
Search
文档中心

Platform For AI:Pemutaran Data

更新时间:Jul 02, 2025

Algoritma pemutaran data digunakan untuk memvisualisasikan dataset dan mengeksplorasi metode analitik dalam pembelajaran mesin. Algoritma ini menggunakan grafik, tabel, atau alat visual lainnya untuk menampilkan struktur, distribusi, dan hubungan data. Hal ini membantu pengguna memahami karakteristik data, mengenali pola, serta mengidentifikasi pengecualian. Algoritma pemutaran data sangat penting dalam pra-pemrosesan data dan rekayasa fitur, memberikan referensi yang jelas dan intuitif untuk pemodelan dan analisis.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Di halaman detail pipeline di Machine Learning Designer, tambahkan komponen Data Pivoting ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.

Tab

Parameter

Deskripsi

Fields Setting

Kolom Fitur

Kolom fitur yang akan divisualisasikan atau dianalisis. Distribusi dan hubungan fitur ditampilkan dalam grafik atau tabel.

Kolom Target

Kolom yang ingin Anda gunakan untuk prediksi atau analisis. Kolom ini biasanya merujuk pada tag atau variabel respons.

Fitur Enumerasi

Fitur yang ingin Anda gunakan sebagai fitur enumerasi.

Format Sparse (K:V,K:V)

Menentukan apakah data dalam format sparse digunakan.

Parameters Setting

Interval Diskritisasi Fitur Kontinu

Jumlah maksimum interval diskrit ke dalam mana fitur kontinu dibagi.

Tuning

Cores

Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif.

Ukuran Memori per Core

Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.

PAI
-name fe_meta_runner
-project algo_public
-DinputTable="pai_dense_10_10"
-DoutputTable="pai_temp_2263_20384_1"
-DmapTable="pai_temp_2263_20384_2"
-DselectedCols="pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome"
-DlabelCol="y"
-DcategoryCols="previous"
-Dlifecycle="28"-DmaxBins="5" ;

Parameter

Diperlukan

Nilai default

Deskripsi

inputTable

Ya

Tidak ada

Nama tabel input.

inputTablePartitions

Tidak

Tidak ada

Partisi yang dipilih dari tabel input untuk pelatihan. Nilai valid:

  • partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contohnya, name1=value1,value2.

outputTable

Ya

Tidak ada

Nama tabel output.

mapTable

Ya

Tidak ada

Tabel pemetaan output. Komponen Data Pivoting memetakan data tipe STRING ke tipe INT untuk PAI gunakan dalam pelatihan.

selectedCols

Ya

Tidak ada

Kolom yang dipilih dari tabel input.

labelCol

Tidak

Tidak ada

Kolom yang ingin Anda gunakan untuk pelatihan.

categoryCols

Tidak

Tidak ada

Kolom tipe INT atau DOUBLE yang ingin Anda gunakan sebagai fitur enumerasi.

maxBins

Tidak

100

Jumlah maksimum interval untuk pembagian jarak sama fitur kontinu.

isSparse

Tidak

false

Menentukan apakah data input bersifat sparse. Nilai valid: true and false.

itemSpliter

Tidak

,

Delimiter yang digunakan untuk memisahkan pasangan key-value jika data dalam tabel input berada dalam format sparse.

kvSpliter

Tidak

:

Delimiter yang digunakan untuk memisahkan keys dan values jika data dalam tabel input berada dalam format sparse.

lifecycle

Tidak

28

Lifecycle tabel output.

coreNum

Tidak

Ditentukan oleh sistem

Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. Nilai valid: 1 hingga 9999.

memSizePerCore

Tidak

Ditentukan oleh sistem

Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB.

Contoh

  1. Hasilkan data uji berikut.

    usia

    pekerjaan

    fwlght

    pendidikan

    edu_num

    menikah

    c

    keluarga

    ras

    jenis kelamin

    gail

    loss

    tahun kerja

    negara

    pendapatan

    39

    State-gov

    77516

    Bachelors

    13

    Never-married

    Adm-clerical

    Not-in-family

    White

    Male

    2174.0

    0.0

    40.0

    United-States

    <=50K

    50

    Self-emp-not-inc

    83311

    Bachelors

    13

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    0.0

    0.0

    13.0

    United-States

    <=50K

    38

    Private

    215646

    HS-grad

    9

    Divorced

    Handlers-cleaners

    Not-in-family

    White

    Male

    0.0

    0.0

    40.0

    United-States

    <=50K

    53

    Private

    234721

    11th

    7

    Married-civ-spouse

    Handlers-cleaners

    Husband

    Black

    Male

    0.0

    0.0

    40.0

    United-States

    <=50K

    28

    Private

    338409

    Bachelors

    13

    Married-civ-spouse

    Prof-specialty

    Wife

    Black

    Female

    0.0

    0.0

    40.0

    Other

    <=50K

    37

    Private

    284582

    Masters

    14

    Married-civ-spouse

    Exec-managerial

    Wife

    White

    Female

    0.0

    0.0

    40.0

    United-States

    <=50K

    49

    Private

    160187

    9th

    5

    Married-spouse-absent

    Other-service

    Not-in-family

    Black

    Female

    0.0

    0.0

    16.0

    Jamaica

    <=50K

    52

    Self-emp-not-inc

    209642

    HS-grad

    9

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    0.0

    0.0

    45.0

    United-States

    >50K

    31

    Private

    45781

    Masters

    14

    Never-married

    Prof-specialty

    Not-in-family

    White

    Female

    14084.0

    0.0

    50.0

    United-States

    >50K

    42

    Private

    159449

    Bachelors

    13

    Married-civ-spouse

    Exec-managerial

    Husband

    White

    Male

    5178.0

    0.0

    40.0

    United-States

    >50K

  2. Tambahkan komponen Read Table dan Data Pivoting, lalu hubungkan komponen-komponen tersebut.image

    Klik komponen Data Pivoting, lalu klik tab Fields Setting. Atur parameter Target Column ke income dan tentukan 14 kolom lainnya untuk parameter Feature Columns. Nilai tipe BIGINT dalam kolom edu_num digunakan sebagai nilai enumerasi. Configuration of the Data Pivoting compunent

  3. Pada toolbar pipeline, klik image.

  4. Setelah pipeline dijalankan, lihat hasil pelatihan.

    • Klik kanan Data Pivoting dan pilih View Data > Output Port. Nilai dalam kolom family, race, sex, dan income dengan tipe data STRING dikonversi menjadi nilai numerik untuk digunakan oleh PAI dalam pelatihan. Ini mirip dengan konversi format data. Output data

    • Klik kanan Data Pivoting dan pilih View Data > String Column Feature Mapping Table.

      Catatan

      Jika Anda tidak menentukan data tipe STRING untuk parameter Feature Columns, parameter String Column Feature Mapping Table dibiarkan kosong dalam output.

      Mapping table

    • Klik kanan Data Pivoting dan pilih View Data > Output Meta Table. Output the meta tabledistribute_info menunjukkan jumlah rekaman dalam setiap interval berdasarkan distribusi seragam antara nilai maksimum dan minimum.