Empirical Probability Density Chart adalah metode non-parametrik untuk memperkirakan dan memvisualisasikan distribusi kepadatan probabilitas data. Metode ini menghaluskan data sampel untuk memberikan pandangan intuitif tentang karakteristik dan tren distribusi, sehingga berguna untuk analisis data eksplorasi dan pengujian hipotesis distribusi.
Deskripsi Algoritma
Algoritma grafik kepadatan probabilitas empiris menggunakan Kernel Density Estimation (KDE) untuk memperkirakan kepadatan probabilitas data sampel. Meskipun memiliki tujuan serupa dengan histogram dalam menggambarkan distribusi data, KDE berbeda karena menghasilkan kurva distribusi kontinu yang halus. Hal ini dicapai dengan menumpangkan fungsi kernel di atas setiap titik data, berbeda dengan sifat diskrit dari histogram. Secara khusus, algoritma menghitung kepadatan probabilitas untuk titik data non-sampel melalui superposisi berbobot dari kepadatan probabilitas titik sampel di bawah kernel Gaussian, menghasilkan kurva yang halus.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen pada halaman pipeline
Tambahkan komponen Empirical Probability Density Chart pada halaman pipeline dan konfigurasikan parameter berikut:
Kategori | Parameter | Deskripsi |
Pengaturan Kolom | Kolom Input | Kolom input. Anda hanya dapat memilih kolom dengan tipe data BIGINT atau DOUBLE. |
Kolom Label | Kolom label. Jika Anda mengonfigurasi parameter ini, kolom input akan digabungkan berdasarkan nilai kolom label. Sebagai contoh, jika kolom label memiliki dua nilai (0 dan 1), dua hasil akan dikembalikan. | |
Pengaturan Parameter | Jumlah Interval Perhitungan | Jumlah interval perhitungan. Nilai yang lebih besar menunjukkan akurasi yang lebih tinggi. Nilai parameter ini dihitung berdasarkan rentang nilai di setiap kolom. |
Pengaturan Tuning | Jumlah Core | Jumlah core yang ingin Anda gunakan. Nilainya harus bilangan bulat positif. |
Ukuran Memori | Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah PAI. Bagian berikut menjelaskan parameter-parameter tersebut. Anda dapat menggunakan skrip SQL untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name empirical_pdf
-project algo_public
-DinputTableName="test_data"
-DoutputTableName="test_epdf_out"
-DfeatureColNames="col0,col1,col2"
-DinputTablePartitions="ds='20160101'"
-Dlifecycle=1
-DintervalNum=100Parameter | Diperlukan | Nilai Default | Deskripsi |
inputTableName | Ya | Tidak ada | Nama tabel input. |
outputTableName | Ya | Tidak ada | Nama tabel output. |
featureColNames | Ya | Tidak ada | Kolom fitur yang dipilih dari tabel input untuk pelatihan. |
labelColName | Tidak | Tidak ada | Nama kolom label di tabel input. |
inputTablePartitions | Tidak | Tidak ada | Partisi tabel input yang akan digunakan dalam pelatihan. Format yang didukung termasuk:
Catatan Jika Anda menentukan beberapa partisi, pisahkan partisi dengan koma (,). Contohnya, name1=value1,name2=value2. |
intervalNum | Tidak | Tidak ada | Jumlah interval perhitungan. Nilai yang lebih besar menunjukkan akurasi yang lebih tinggi. Nilai valid: [1,1E14). |
lifecycle | Tidak | Tidak ada | Lifecycle tabel. |
coreNum | Tidak | Ditentukan oleh sistem | Jumlah core yang ingin Anda gunakan. Nilainya harus bilangan bulat positif. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Nilai valid: 1 hingga 65536. Unit: MB. |
Contoh
Tambahkan komponen skrip SQL, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut.
drop table if exists epdf_test; create table epdf_test as select * from ( select 1.0 as col1 union all select 2.0 as col1 union all select 3.0 as col1 union all select 4.0 as col1 union all select 5.0 as col1 ) tmp;Tambahkan komponen skrip SQL lainnya, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan perintah PAI berikut dan hubungkan komponen dari Langkah 1 dan 2.
drop table if exists ${o1}; PAI -name empirical_pdf -project algo_public -DinputTableName=epdf_test -DoutputTableName=${o1} -DfeatureColNames=col1;Klik ikon
di sudut kiri atas untuk menjalankan pipeline.Klik kanan komponen SQL Script yang dibuat di Langkah 2 dan pilih View Data > SQL Script Output untuk melihat hasil pelatihan.
| colname | label | x | pdf | | ------- | ----- | ------------------ | ------------------- | | col1 | | 1.0 | 0.12775155176809325 | | col1 | | 1.0404050505050506 | 0.1304256933829622 | | col1 | | 1.0808101010101012 | 0.13306325897429525 | | col1 | | 1.1212151515151518 | 0.1356613897616418 | | col1 | | 1.1616202020202024 | 0.1382173796574596 | | col1 | | 1.202025252525253 | 0.1407286844875733 | | col1 | | 1.2424303030303037 | 0.14319293014274642 | | col1 | | 1.2828353535353543 | 0.14560791960033242 | | col1 | | 1.3232404040404049 | 0.14797163876379316 | | col1 | | 1.3636454545454555 | 0.1502822610772349 | | col1 | | 1.404050505050506 | 0.1525381508819247 | | col1 | | 1.4444555555555567 | 0.1547378654919243 | | col1 | | 1.4848606060606073 | 0.1568801559764068 | | col1 | | 1.525265656565658 | 0.15896396664681753 | | col1 | | 1.5656707070707085 | 0.16098843325768245 | | col1 | | 1.6060757575757592 | 0.1629528799404685 | | col1 | | 1.6464808080808098 | 0.16485681490034038 | | col1 | | 1.6868858585858604 | 0.16669992491584543 | | col1 | | 1.727290909090911 | 0.16848206869138338 | | col1 | | 1.7676959595959616 | 0.17020326912168932 | | col1 | | 1.8081010101010122 | 0.17186370453638117 | | col1 | | 1.8485060606060628 | 0.17346369900080946 | | col1 | | 1.8889111111111134 | 0.17500371175692428 | | col1 | | 1.929316161616164 | 0.17648432589456017 | | col1 | | 1.9697212121212146 | 0.17790623634938396 | | col1 | | 2.0101262626262653 | 0.1792702373286898 | | col1 | | 2.050531313131316 | 0.18057720927022053 | | col1 | | 2.0909363636363665 | 0.18182810544221673 | | col1 | | 2.131341414141417 | 0.18302393829491406 | | col1 | | 2.1717464646464677 | 0.18416576567472337 | | col1 | | 2.2121515151515183 | 0.1852546770123305 | | col1 | | 2.252556565656569 | 0.18629177959496213 | | col1 | | 2.2929616161616195 | 0.18727818503109434 | | col1 | | 2.33336666666667 | 0.18821499601297229 | | col1 | | 2.3737717171717208 | 0.18910329347850022 | | col1 | | 2.4141767676767714 | 0.18994412426940221 | | col1 | | 2.454581818181822 | 0.19073848937711185 | | col1 | | 2.4949868686868726 | 0.19148733286168018 | | col1 | | 2.535391919191923 | 0.1921915315221827 | | col1 | | 2.575796969696974 | 0.19285188538972659 | | col1 | | 2.6162020202020244 | 0.19346910910630113 | | col1 | | 2.656607070707075 | 0.19404382424446043 | | col1 | | 2.6970121212121256 | 0.1945765526142701 | | col1 | | 2.7374171717171762 | 0.19506771059517916 | | col1 | | 2.777822222222227 | 0.19551760452158667 | | col1 | | 2.8182272727272775 | 0.19592642714194602 | | col1 | | 2.858632323232328 | 0.1962942551623821 | | col1 | | 2.8990373737373787 | 0.1966210478770638 | | col1 | | 2.9394424242424293 | 0.1969066468790639 | | col1 | | 2.97984747474748 | 0.19715077683721793 | | col1 | | 3.0202525252525305 | 0.19735304731663747 | | col1 | | 3.060657575757581 | 0.19751295561309964 | | col1 | | 3.1010626262626317 | 0.19762989056457925 | | col1 | | 3.1414676767676823 | 0.19770313729675995 | | col1 | | 3.181872727272733 | 0.19773188285349683 | | col1 | | 3.2222777777777836 | 0.19771522265793107 | | col1 | | 3.262682828282834 | 0.19765216774530828 | | col1 | | 3.303087878787885 | 0.19754165270453194 | | col1 | | 3.3434929292929354 | 0.19738254426210697 | | col1 | | 3.383897979797986 | 0.19717365043938664 | | col1 | | 3.4243030303030366 | 0.19691373021193162 | | col1 | | 3.4647080808080872 | 0.1966015035982942 | | col1 | | 3.505113131313138 | 0.19623566210464843 | | col1 | | 3.5455181818181885 | 0.19581487945135703 | | col1 | | 3.585923232323239 | 0.19533782250778076 | | col1 | | 3.6263282828282897 | 0.1948031623623475 | | col1 | | 3.6667333333333403 | 0.1942095854560816 | | col1 | | 3.707138383838391 | 0.19355580470939734 | | col1 | | 3.7475434343434415 | 0.19284057057394655 | | col1 | | 3.787948484848492 | 0.19206268194364004 | | col1 | | 3.8283535353535427 | 0.19122099686158253 | | col1 | | 3.8687585858585933 | 0.19031444296253852 | | col1 | | 3.909163636363644 | 0.1893420275936375 | | col1 | | 3.9495686868686946 | 0.18830284755928747 | | col1 | | 3.989973737373745 | 0.1871960984396676 | | col1 | | 4.030378787878796 | 0.18602108343567092 | | col1 | | 4.070783838383846 | 0.18477722169674377 | | col1 | | 4.111188888888897 | 0.1834640560916829 | | col1 | | 4.151593939393948 | 0.1820812603860928 | | col1 | | 4.191998989898998 | 0.18062864579383914 | | col1 | | 4.232404040404049 | 0.179106166873458 | | col1 | | 4.272809090909099 | 0.17751392674406796 | | col1 | | 4.31321414141415 | 0.17585218159888508 | | col1 | | 4.353619191919201 | 0.17412134449794325 | | col1 | | 4.394024242424251 | 0.1723219884250765 | | col1 | | 4.434429292929302 | 0.17045484859762067 | | col1 | | 4.4748343434343525 | 0.16852082402064342 | | col1 | | 4.515239393939403 | 0.1665209782808102 | | col1 | | 4.555644444444454 | 0.16445653957824907 | | col1 | | 4.596049494949504 | 0.16232889999798905 | | col1 | | 4.636454545454555 | 0.16013961402571825 | | col1 | | 4.6768595959596055 | 0.1578903963157465 | | col1 | | 4.717264646464656 | 0.15558311872216193 | | col1 | | 4.757669696969707 | 0.1532198066072439 | | col1 | | 4.798074747474757 | 0.1508026344442397 | | col1 | | 4.838479797979808 | 0.14833392073462115 | | col1 | | 4.878884848484859 | 0.14581612226291346 | | col1 | | 4.919289898989909 | 0.1432518277151203 | | col1 | | 4.95969494949496 | 0.1406437506896507 | | col1 | | 5.00010000000001 | 0.13799472213247665 |Nama Kolom
Tipe
Deskripsi
colName
string
Nama kolom input.
label
string
Menunjukkan kolom label. Jika tidak ditentukan, label akan kosong di output.
x
double
Mewakili nilai pada sumbu x dalam grafik, yang merupakan nilai interpolasi bukan titik data aktual.
pdf
double
Mewakili nilai fungsi kepadatan probabilitas.