Percentile adalah ukuran statistik yang digunakan untuk menghitung persentil dalam kumpulan data. Saat data diurutkan dari terkecil hingga terbesar dan dibagi menjadi 100 kelompok, persentil menunjukkan nilai di bawah mana persentase tertentu dari data berada.
Informasi latar belakang
Sistem hanya dapat menghitung persentil untuk data bertipe BIGINT, DOUBLE, atau DATETIME.
Kolom kosong akan dilewati selama perhitungan persentil. Jika semua kolom kosong, sistem akan mengembalikan kesalahan.
Anda dapat menentukan beberapa kolom data dalam parameter colName.
Konfigurasikan komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Percentile.
Metode 1: Konfigurasikan komponen pada halaman pipeline
Anda dapat mengonfigurasi parameter komponen Percentile pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Pengaturan Parameter | Kolom Input | Klik Pilih Kolom untuk memilih kolom input. |
Tuning | Jumlah Core | Jumlah core. |
Ukuran Memori per Core | Ukuran memori setiap core. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
PAI -name Percentile
-project algo_public
-DinputTableName=maple_test_percentile_3col_input
-DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;Parameter | Deskripsi | Diperlukan |
inputTableName | Nama tabel input. | Ya |
outputTableName | Nama tabel output. | Ya |
colName | Nama kolom yang akan dihitung. Secara default, semua kolom dipilih. null Pisahkan nama kolom ganda dengan koma (,). | Tidak |
inputPartitions | Partisi dalam tabel input. Secara default, semua partisi dipilih.
| Tidak |
predictInputTableName | Nama tabel prediksi. Setelah Anda menetapkan parameter ini, hasil prediksi dapat dihasilkan. | Tidak |
predictInputTablePartitions | Partisi dalam tabel prediksi input. | Tidak |
predictSelectedColNames | Nama kolom yang dipilih dari tabel prediksi. Secara default, semua kolom dalam tabel prediksi dipilih. Nama kolom harus sama dengan nama kolom dalam tabel pelatihan. | Tidak |
predictSelectedOriginalColNames | Nama kolom yang datanya ingin Anda pertahankan. Secara default, semua kolom dipilih. Pisahkan nama kolom ganda dengan koma (,). | Tidak |
predictOutputTableName | Nama tabel output prediksi. Parameter ini digunakan bersama dengan parameter predictInputTableName. | Tidak |
lifecycle | Lifecycle tabel output. Secara default, tabel output tidak memiliki lifecycle. null Nilai harus bilangan bulat positif. | Tidak |
coreNum | Jumlah core. Nilai valid: [1,9999]. Parameter ini digunakan bersama dengan parameter memSizePerCore. null Nilai harus bilangan bulat positif. | Tidak |
memSizePerCore | Ukuran memori setiap core. Unit: MB. Nilai valid: [1024,64 × 1024]. null Nilai harus bilangan bulat positif. | Tidak |
Contoh
Tabel Input
col0:double (1000 baris)
col1:bigint (100 baris)
col2:bigint (300 baris)
962
88
Tue Oct 15 00:26:40 CST 1974
218
99
Thu Jan 04 20:53:20 CST 1973
565
44
Sat Mar 09 02:40:00 CST 1974
314
68
Mon Aug 11 22:40:00 CST 1975
583
13
Sat Aug 23 12:26:40 CST 1975
615
87
Tue May 25 14:13:20 CST 1971
70
53
Fri Mar 23 09:20:00 CST 1979
929
63
Mon Jul 03 16:26:40 CST 1972
249
48
Thu Mar 15 07:33:20 CST 1973
428
62
Wed Mar 17 03:33:20 CST 1971
119
1
Thu Jun 26 15:33:20 CST 1975
756
27
Mon Jan 30 17:20:00 CST 1978
490
75
Wed Dec 11 21:20:00 CST 1974
957
12
Sun Jul 05 12:26:40 CST 1970
80
22
Wed Oct 04 06:40:00 CST 1972
681
57
Wed Nov 03 15:06:40 CST 1971
13
95
Sat Sep 12 23:06:40 CST 1970
Perintah PAI
PAI -name Percentile -project algo_public -DinputTableName=maple_test_percentile_3col_input -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;Tabel Output
quantile:bigint
col0:double
col1:bigint
col2:datetime
0
0.0
0
Thu Jan 01 08:00:00 CST 1970
1
9.0
0
Sat Jan 24 11:33:20 CST 1970
2
19.0
1
Sat Feb 28 04:53:20 CST 1970
3
29.0
2
Fri Apr 03 22:13:20 CST 1970
4
39.0
3
Fri May 08 15:33:20 CST 1970
5
49.0
4
Fri Jun 12 08:53:20 CST 1970
6
59.0
5
Fri Jul 17 02:13:20 CST 1970
7
69.0
6
Thu Aug 20 19:33:20 CST 1970
8
79.0
7
Thu Sep 24 12:53:20 CST 1970
9
89.0
8
Thu Oct 29 06:13:20 CST 1970
10
99.0
9
Wed Dec 02 23:33:20 CST 1970
11
109.0
10
Wed Jan 06 16:53:20 CST 1971
12
119.0
11
Wed Feb 10 10:13:20 CST 1971
13
129.0
12
Wed Mar 17 03:33:20 CST 1971
14
139.0
13
Tue Apr 20 20:53:20 CST 1971
15
149.0
14
Tue May 25 14:13:20 CST 1971
16
159.0
15
Tue Jun 29 07:33:20 CST 1971
...
...
...
...
84
839.0
83
Kam Dec 15 10:13:20 CST 1977
85
849.0
84
Kam Jan 19 03:33:20 CST 1978
86
859.0
85
Rab Feb 22 20:53:20 CST 1978
87
869.0
86
Rab Mar 29 14:13:20 CST 1978
88
879.0
87
Rab May 03 07:33:20 CST 1978
89
889.0
88
Rab Jun 07 00:53:20 CST 1978
90
899.0
89
Sel Jul 11 18:13:20 CST 1978
91
909.0
90
Sel Aug 15 11:33:20 CST 1978
92
919.0
91
Sel Sep 19 04:53:20 CST 1978
93
929.0
92
Sen Oct 23 22:13:20 CST 1978
94
939.0
93
Sen Nov 27 15:33:20 CST 1978
95
949.0
94
Sen Jan 01 08:53:20 CST 1979
96
959.0
95
Sen Feb 05 02:13:20 CST 1979
97
969.0
96
Ming Mar 11 19:33:20 CST 1979
98
979.0
97
Ming Apr 15 12:53:20 CST 1979
99
989.0
98
Ming May 20 06:13:20 CST 1979
100
999.0
99
Sab Jun 23 23:33:20 CST 1979