全部产品
Search
文档中心

Platform For AI:Diagram Kotak

更新时间:Jul 02, 2025

Topik ini menjelaskan komponen Diagram Kotak yang disediakan oleh Machine Learning Designer.

Grafik diagram kotak menunjukkan distribusi dari satu set data. Grafik ini menggambarkan fitur distribusi dari data mentah dan dapat digunakan untuk membandingkan fitur distribusi antara beberapa set data.

Batasan

Laporan visual dari komponen ini hanya tersedia di Machine Learning Studio.

Konfigurasikan komponen

Anda dapat mengonfigurasi komponen dengan menggunakan salah satu metode berikut:

Metode 1: Menggunakan konsol Platform for AI Machine Learning

Konfigurasikan parameter komponen pada halaman konfigurasi pipeline Machine Learning Designer.
TabParameterDeskripsi
Field SettingContinuous FeaturesKolom yang mewakili fitur kontinu.
Enumeration FeatureKolom yang mewakili fitur enumerasi.
Catatan Machine Learning Studio hanya memungkinkan Anda memilih satu bidang, sedangkan Machine Learning Designer memungkinkan Anda memilih beberapa bidang.
Stratified SamplesJumlah sampel bertingkat yang diadopsi.

Metode 2: Menggunakan perintah Platform for AI (PAI)

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script. Tabel berikut menjelaskan parameter dari perintah PAI.
PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
     -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";
ParameterDiperlukanDeskripsiNilai default
inputTableYaNama tabel input. Tidak tersedia
inputTablePartitionsTidakPartisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
  • Partition_name=value
  • name1=value1/name2=value2: partisi multi-level
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).
Tidak tersedia
outputTableYaNama tabel output yang menyimpan grafik diagram kotak dan sampel. Tidak tersedia
continueColsYaKolom yang mewakili fitur kontinu. Tidak tersedia
categoryColYaKolom yang mewakili fitur enumerasi. Tidak tersedia
sampleSizeTidakJumlah sampel berdasarkan kondisi gangguan setiap fitur yang digambarkan. 1000
lifecycleTidakSiklus hidup tabel output. Unit: hari. 28
coreNumTidakJumlah core yang digunakan dalam komputasi. Nilai parameter ini harus bilangan bulat positif. Dialokasikan secara otomatis
memSizePerCoreTidakUkuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB. Dialokasikan secara otomatis

Contoh

  • Data Masukan
    create table boxplot as select age, y from bank_data limit 100;
    agey
    500
    530
    281
    390
    551
    300
    370
    390
    361
    270
    340
    410
    551
    330
    260
    520
    351
    271
    280
    260
    410
    350
    400
    320
    410
    340
    490
    370
    350
    380
    470
    460
    270
    291
    320
    360
    290
    470
    440
    540
    360
    420
    440
    721
    480
    360
    350
    430
    560
    420
    310
    320
    330
    310
    390
    301
    240
    240
    380
    260
    410
    340
    300
    370
    680
    310
    480
    330
    590
    440
    280
    500
    330
    450
    400
    450
    430
    540
    530
    350
    300
    250
    350
    541
    300
    380
    350
    470
    320
    270
    401
    310
    420
    400
    310
    570
    381
    390
    370
    440
  • Pengaturan Parameter

    Tetapkan kolom age sebagai kolom fitur kontinu, dan kolom y sebagai kolom fitur enumerasi. Pertahankan nilai default parameter lainnya.

  • Keluaran
    • Deskripsi Keluaran
      Klik kanan Box Plot dan pilih View Data > Output Port untuk melihat keluaran. Parameter:
      • percent_points: Menunjukkan persentil yang dihitung.
      • percent_count: Menunjukkan jumlah entri data dalam setiap interval. Interval dibagi berdasarkan persentil.
      • sample_list: Sampel dipilih dari setiap strata berdasarkan laju pengambilan sampel. Laju pengambilan sampel dihitung menggunakan rumus berikut: Laju pengambilan sampel = Jumlah sampel bertingkat / Total jumlah entri data. Jika laju pengambilan sampel terlalu rendah dan nilai jumlah sampel di setiap strata dikalikan dengan laju pengambilan sampel kurang dari 10, laju pengambilan sampel baru akan dihitung ulang.
    • Gambar berikut menunjukkan grafik diagram kotak.Box plot chart
    • Gambar berikut menunjukkan distribusi titik gangguan.Distribution of disturbance points