Uji Normalitas adalah metode statistik yang digunakan untuk menentukan apakah suatu kumpulan data berasal dari populasi yang terdistribusi normal. Uji ini mencakup metode seperti uji Anderson-Darling, uji Kolmogorov-Smirnov, dan uji plot QQ, yang mengevaluasi karakteristik distribusi dari suatu kumpulan data untuk mendukung analisis statistik dan pemodelan lebih lanjut.
Deskripsi Algoritma
Komponen Uji Normalitas menyediakan metode uji Anderson-Darling, uji Kolmogorov-Smirnov, dan uji plot QQ. Anda dapat memilih satu atau beberapa metode untuk pengujian.
Uji Anderson-Darling: Metode peningkatan goodness-of-fit ini menekankan perbedaan ekor dari suatu distribusi. Metode ini mengukur seberapa baik data sampel sesuai dengan distribusi teoretis tertentu dengan mengevaluasi perbedaan kuadrat dari fungsi distribusi kumulatif yang diberi bobot.
Uji Kolmogorov-Smirnov: Sebagai metode non-parametrik, uji ini membandingkan distribusi sampel dengan distribusi referensi atau dua distribusi sampel. Uji ini menghitung perbedaan maksimum antara fungsi distribusi kumulatif mereka untuk menilai goodness-of-fit.
Uji plot QQ: Alat grafis ini digunakan untuk secara visual membandingkan distribusi sampel dengan distribusi teoretis atau antara dua distribusi sampel. Uji ini mengidentifikasi ketidaksesuaian distribusi dengan membandingkan kuantil.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Tambahkan komponen Normality Test pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Pengaturan Bidang | Kolom | Kolom tempat uji normalitas akan dilakukan. |
Pengaturan Parameter | Uji Anderson-Darling | Apakah akan melakukan uji Anderson-Darling. |
Uji Kolmogorov-Smirnov | Apakah akan melakukan uji Kolmogorov-Smirnov. | |
Gunakan Plot QQ | Apakah akan melakukan uji plot QQ. | |
Penyetelan | Jumlah Core Komputasi | Jumlah core yang digunakan dalam komputasi. Nilainya harus bilangan bulat positif. |
Ukuran Memori per Core (Unit: MB) | Ukuran memori setiap core. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name normality_test
-project algo_public
-DinputTableName=test
-DoutputTableName=test_out
-DselectedColNames=col1,col2
-Dlifecycle=1;Parameter | Diperlukan | Nilai Default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input yang akan diuji. |
outputTableName | Ya | Tidak ada | Nama tabel output. |
selectedColNames | Tidak | Tidak ada | Kolom yang dipilih dari tabel input. Anda dapat memilih beberapa kolom bertipe DOUBLE atau BIGINT. |
inputTablePartitions | Tidak | "" | Nama partisi dari tabel input. |
enableQQplot | Tidak | true | Apakah akan melakukan uji plot QQ. |
enableADtest | Tidak | true | Apakah akan melakukan uji Anderson-Darling. |
enableKStest | Tidak | true | Apakah akan melakukan uji Kolmogorov-Smirnov. |
lifecycle | Tidak | -1 | Lifecycle tabel output. Nilainya adalah bilangan bulat yang lebih besar dari atau sama dengan -1. Nilai default: -1. Ini menunjukkan bahwa lifecycle tabel output tidak disetel. |
coreNum | Tidak | -1 | Parameter ini digunakan bersama dengan memSizePerCore. Nilainya harus bilangan bulat positif. Nilai default: -1. Ini menunjukkan bahwa jumlah instance ditentukan oleh jumlah data input. |
memSizePerCore | Tidak | -1 | Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: (100,64 × 1024). Nilai default: -1. Ini menunjukkan bahwa ukuran memori setiap core ditentukan oleh jumlah data input. |
Contoh
Tambahkan komponen SQL Script, hapus centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan pernyataan SQL berikut.
drop table if exists normality_test_input; create table normality_test_input as select * from ( select 1 as x union all select 2 as x union all select 3 as x union all select 4 as x union all select 5 as x union all select 6 as x union all select 7 as x union all select 8 as x union all select 9 as x union all select 10 as x ) tmp;Tambahkan komponen skrip SQL lainnya, hapus centang pada Use Script Mode dan Whether the system adds a create table statement. Masukkan perintah PAI berikut, dan hubungkan komponen dari Langkah 1 dan Langkah 2.
drop table if exists ${o1}; PAI -name normality_test -project algo_public -DinputTableName=normality_test_input -DoutputTableName=${o1} -DselectedColNames=x -Dlifecycle=1;Klik ikon
di sudut kiri atas untuk menjalankan pipeline.Klik kanan komponen SQL Script yang dibuat di Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.
| colname | testname | testvalue | pvalue | | ------- | ----------------------- | ------------------- | ------------------ | | x | | 1.0 | 0.8173291742279805 | | x | | 2.0 | 2.470864450785345 | | x | | 3.0 | 3.5156067948020056 | | x | | 4.0 | 4.3632330349313095 | | x | | 5.0 | 5.128868067945126 | | x | | 6.0 | 5.871131932054874 | | x | | 7.0 | 6.6367669650686905 | | x | | 8.0 | 7.4843932051979944 | | x | | 9.0 | 8.529135549214654 | | x | | 10.0 | 10.182670825772018 | | x | Anderson_Darling_Test | 0.1411092332197832 | 0.9566579606430077 | | x | Kolmogorov_Smirnov_Test | 0.09551932503797644 | 0.9999888659426232 |