Komponen Statistik Tabel Keseluruhan adalah metode analisis statistik dasar yang diterapkan pada seluruh dataset. Komponen ini menghitung dan merangkum metrik seperti rata-rata, median, deviasi standar, nilai minimum, maksimum, serta jumlah nilai yang hilang. Komponen ini membantu menilai karakteristik keseluruhan dan kualitas data secara cepat, memberikan informasi dasar untuk pembersihan data, rekayasa fitur, dan pengembangan model.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Di halaman detail pipeline dalam Machine Learning Designer, tambahkan komponen Statistik Tabel Keseluruhan ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.
Tab | Parameter | Deskripsi |
Pengaturan Bidang | Kolom Input (Semua Kolom Secara Default) | Klik Pilih Bidang untuk memilih kolom input untuk analisis statistik. Secara default, semua kolom dipilih. |
Tuning | Jumlah Core | Jumlah core. |
Ukuran Memori | Ukuran memori setiap core. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen SQL Script.
PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1Parameter | Diperlukan | Deskripsi |
inputTableName | Ya | Nama tabel input. |
outputTableName | Ya | Nama tabel output. |
inputTablePartitions | Tidak | Partisi dalam tabel input. Secara default, semua partisi dipilih. |
selectColNames | Tidak | Nama kolom yang dipilih untuk statistik. |
lifecycle | Tidak | Lifecycle tabel output. Secara default, tabel output tidak memiliki lifecycle. null Nilainya harus bilangan bulat positif. |
coreNum | Tidak | Jumlah core. null Nilainya harus bilangan bulat positif. |
memSizePerCore | Tidak | Ukuran memori setiap core. Satuan: MB. Nilai valid: [1024,64 x 1024]. null Nilainya harus bilangan bulat positif. |
Contoh
Di halaman detail pipeline, tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Di tab Parameters Setting, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script:
drop table if exists summary_test_input; create table summary_test_input as select * from ( select 'a' as col1, 1 as col2, 0.001 as col3 union all select 'b' as col1, 2 as col2, 100.01 as col3 ) tmp;Tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Di tab Parameters Setting, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script. Hubungkan komponen ini dengan komponen yang ditambahkan di Langkah 1.
drop table if exists ${o1}; PAI -name stat_summary -project algo_public -DinputTableName=summary_test_input -DoutputTableName=${o1} -DselectColNames=col1,col2,col3 -Dlifecycle=1;Di sudut kiri atas kanvas, klik
untuk menjalankan pipeline.Setelah pipeline dijalankan, klik kanan komponen yang ditambahkan di Langkah 2, pilih View data, lalu pilih SQL Script Output.
| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min | max | mean | variance | standarddeviation | standarderror | skewness | kurtosis | moment2 | moment3 | moment4 | centralmoment2 | centralmoment3 | centralmoment4 | sum | sum2 | sum3 | sum4 | | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- | | col1 | string | 2 | 2 | 0 | 0 | 0 | 0 | | | | | | | | | | | | | | | | | | | | col2 | bigint | 2 | 2 | 0 | 0 | 0 | 0 | 1 | 2 | 1.5 | 0.5 | 0.7071067811865476 | 0.5 | 0 | -2 | 2.5 | 4.5 | 8.5 | 0.25 | 0 | 0.0625 | 3 | 5 | 9 | 17 | | col3 | double | 2 | 2 | 0 | 0 | 0 | 0 | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025 | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |Kolom
Deskripsi
colname
Nama kolom.
datatype
Tipe data.
totalcount
Jumlah total.
count
Jumlah nilai non-NULL.
missingcount
Jumlah nilai NULL.
nancount
Jumlah nilai NaN.
positiveinfinitycount
Jumlah nilai tak terhingga positif.
negativeinfinitycount
Jumlah nilai tak terhingga negatif.
min
Nilai minimum.
max
Nilai maksimum.
mean
Nilai rata-rata.
variance
Variansi.
standarddeviation
Deviasi standar.
standarderror
Galat standar.
skewness
Kemiringan.
kurtosis
Kurtosis.
moment2
Momen kedua.
moment3
Momen ketiga.
moment4
Momen keempat.
centralmoment2
Momen pusat kedua.
centralmoment3
Momen pusat ketiga.
centralmoment4
Momen pusat keempat.
sum
Jumlah.
sum2
Jumlah kuadrat.
sum3
Jumlah pangkat tiga.
sum4
Jumlah pangkat empat.