全部产品
Search
文档中心

Platform For AI:Diskretisasi Fitur

更新时间:Jun 22, 2025

Diskretisasi Fitur adalah teknik pra-pemrosesan data dalam pembelajaran mesin yang digunakan untuk mengubah fitur kontinu menjadi fitur diskrit. Dengan menerapkan aturan atau metode tertentu (seperti frekuensi sama atau lebar sama), diskretisasi fitur membagi data numerik kontinu menjadi sejumlah interval atau kategori diskrit yang terbatas, sehingga memudahkan penanganan dan analisis model. Transformasi ini membantu meningkatkan performa algoritma tertentu, terutama ketika berhadapan dengan masalah klasifikasi.

Ikhtisar

Komponen Diskretisasi Fitur mendukung jenis-jenis diskretisasi berikut:

  • Diskretisasi fitur padat bertipe data numerik.

  • Diskretisasi tanpa pengawasan seperti diskretisasi frekuensi sama dan diskretisasi lebar sama.

    null

    Diskretisasi tanpa pengawasan default adalah diskretisasi lebar sama.

  • Diskretisasi dengan pengawasan seperti diskretisasi berbasis keuntungan Gini dan diskretisasi berbasis keuntungan entropi.

    null

    Tipe data untuk diskretisasi fitur label harus ENUM, STRING, atau BIGINT.

  • Diskretisasi dengan pengawasan digunakan untuk mencari titik-titik segmentasi berdasarkan keuntungan entropi dengan melakukan penelusuran konstan. Jenis diskretisasi ini mungkin memerlukan waktu lama untuk dijalankan. Jumlah bin yang diperoleh setelah segmentasi tidak dibatasi oleh nilai yang ditentukan oleh parameter maxBins.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter dari komponen Diskretisasi Fitur pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Discrete Features

Fitur yang memerlukan diskretisasi.

Label Column

Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat.

Parameters Setting

Discretization Method

Metode yang digunakan untuk diskretisasi. Nilai valid:

  • Diskretisasi Lebar Sama

  • Diskretisasi Frekuensi Sama

  • Diskretisasi Berbasis Keuntungan Gini

  • Diskretisasi Berbasis Keuntungan Entropi

Kami merekomendasikan Anda menggunakan Diskretisasi Isometrik atau Diskretisasi Isifrekuensi. Dua metode lainnya, Diskretisasi Berbasis Keuntungan Gini dan Diskretisasi Berbasis Keuntungan Entropi, dapat dipahami sebagai properti eksperimen. Jika Anda membutuhkan metrik WOE, lihat Binning.

Discretization Interval

Jumlah interval diskrit. Nilainya harus bilangan bulat positif yang lebih besar dari 1.

Tuning

Cores

Jumlah core yang digunakan dalam komputasi. Nilainya harus bilangan bulat positif.

Memory Size per Core

Ukuran memori setiap core.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name fe_discrete_runner_1 -project algo_public
   -DdiscreteMethod=SameFrequecy
   -Dlifecycle=28
   -DmaxBins=5
   -DinputTable=pai_dense_10_1
   -DdiscreteCols=nr_employed
   -DoutputTable=pai_temp_2262_20382_1
   -DmodelTable=pai_temp_2262_20382_2;

Parameter

Diperlukan

Deskripsi

Nilai default

inputTable

Ya

Nama tabel input.

Tidak ada

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan. Tentukan parameter ini dalam format Partition_name=value.

Untuk menentukan partisi multi-level, tentukan parameter ini dalam format name1=value1/name2=value2;.

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan tanda koma (,).

Semua partisi dalam tabel input

outputTable

Ya

Tabel output setelah diskretisasi.

Tidak ada

discreteCols

Ya

Fitur yang memerlukan diskretisasi. Fitur jarang secara otomatis difilter oleh sistem.

""

labelCol

Tidak

Kolom label. Jika parameter ini ditentukan, histogram x-y yang menampilkan hubungan antara fitur dan variabel objektif dapat dilihat.

Tidak ada

discreteMethod

Tidak

Metode yang digunakan untuk diskretisasi. Nilai valid:

  • Diskretisasi Isometrik

  • Diskretisasi Isifrekuensi

  • Diskretisasi Berbasis Keuntungan Gini

  • Diskretisasi Berbasis Keuntungan Entropi

Diskretisasi Isometrik

maxBins

Tidak

Jumlah interval diskrit. Nilainya harus bilangan bulat positif yang lebih besar dari 1.

100

lifecycle

Tidak

Lifecycle tabel output. Nilainya harus bilangan bulat positif.

7

coreNum

Tidak

Jumlah core. Parameter ini digunakan bersama dengan parameter memSizePerCore. Nilainya harus bilangan bulat positif.

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif.

Ditentukan oleh sistem

Contoh

  • Data Input

    Eksekusi pernyataan SQL berikut untuk menghasilkan data input:

    create table if not exists pai_dense_10_1 as
    select
        nr_employed
    from bank_data limit 10;
  • Konfigurasikan Komponen

    Tabel input adalah pai_dense_10_1. Pada tab Pengaturan Bidang, atur parameter Fitur Diskrit ke nr_employed. Pada tab Pengaturan Parameter, atur parameter Metode Diskretisasi ke Diskretisasi Lebar Sama dan parameter Interval Diskrit ke 5.

  • Hasil Eksekusi

    nr_employed

    4.0

    3.0

    1.0

    3.0

    2.0

    4.0

    3.0

    3.0

    2.0

    3.0