Topik ini menjelaskan komponen Uji Kesesuaian Chi-square yang disediakan oleh Machine Learning Designer. Komponen ini digunakan dalam skenario di mana variabel kategoris diterapkan. Komponen ini bertujuan untuk menentukan perbedaan antara frekuensi observasi dan frekuensi harapan untuk setiap klasifikasi dari satu variabel kategoris multikelas tunggal. Hipotesis nol mengasumsikan bahwa frekuensi observasi dan frekuensi harapan adalah sama.
Konfigurasikan komponen
Anda dapat mengonfigurasi komponen Uji Kesesuaian Chi-square menggunakan salah satu metode berikut:
Metode 1: Konfigurasikan komponen di Machine Learning Designer
Konfigurasikan komponen pada tab konfigurasi pipeline dari Machine Learning Designer di konsol Platform for AI.
Parameter | Deskripsi |
Kolom Input | Kolom tempat Anda ingin melakukan uji chi-square. |
Probabilitas Kelas | Konfigurasi probabilitas kelas. Tentukan parameter ini dalam format |
Metode 2: Jalankan perintah Platform for AI
Konfigurasikan parameter komponen dengan menggunakan perintah Platform for AI. Anda dapat menggunakan komponen SQL Script untuk menjalankan perintah Platform for AI. Untuk informasi lebih lanjut, lihat SQL Script. Tabel berikut menjelaskan parameter dari perintah yang digunakan untuk mengonfigurasi komponen ini.
PAI -name chisq_test
-project algo_public
-DinputTableName=pai_chisq_test_input
-DcolName=f0
-DprobConfig=0:0.3,1:0.7
-DoutputTableName=pai_chisq_test_output0
-DoutputDetailTableName=pai_chisq_test_output0_detailParameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel input. | Tidak ada. |
colName | Ya | Nama kolom. | Tidak ada. |
outputTableName | Ya | Nama tabel output. | Tidak ada. |
outputDetailTableName | Ya | Nama tabel detail output. | Tidak ada. |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Secara default, parameter ini dibiarkan kosong. |
probConfig | Tidak | Konfigurasi probabilitas kelas. Tentukan parameter ini dalam format | Secara default, parameter ini tidak ditentukan, dan semua nilai probabilitasnya sama. |
Contoh
Data Uji
create table pai_chisq_test_input as select * from ( select '1' as f0,'2' as f1 union all select '1' as f0,'3' as f1 union all select '1' as f0,'4' as f1 union all select '0' as f0,'3' as f1 union all select '0' as f0,'4' as f1 )tmp;Perintah PAI
PAI -name chisq_test -project algo_public -DinputTableName=pai_chisq_test_input -DcolName=f0 -DprobConfig=0:0.3,1:0.7 -DoutputTableName=pai_chisq_test_output0 -DoutputDetailTableName=pai_chisq_test_output0_detailDeskripsi Output
Tabel output yang ditentukan oleh parameter outputTableName berada dalam format JSON. Tabel tersebut hanya berisi satu baris dan satu kolom.
{ "Chi-Square": { "comment": "Uji chi-square Pearson", "df": 1, "p-value": 0.75, "value": 0.2380952380952381 } }Tabel berikut menjelaskan kolom dalam tabel detail output yang ditentukan oleh parameter outputDetailTableName.
nama kolom
komentar
colName
Kelas sumber data.
observed
Frekuensi observasi.
expected
Frekuensi harapan.
residuals
Residu standar, yang dihitung dengan menggunakan ekspresi berikut:
(Residu standar = (Frekuensi observasi - Frekuensi harapan)/sqrt(Frekuensi harapan).Data yang Dihasilkan
