全部产品
Search
文档中心

Platform For AI:Percentile

更新时间:Jun 22, 2025

Percentile adalah ukuran statistik yang digunakan untuk menghitung persentil dalam kumpulan data. Saat data diurutkan dari terkecil hingga terbesar dan dibagi menjadi 100 kelompok, persentil menunjukkan nilai di bawah mana persentase tertentu dari data berada.

Informasi latar belakang

  • Sistem hanya dapat menghitung persentil untuk data bertipe BIGINT, DOUBLE, atau DATETIME.

  • Kolom kosong akan dilewati selama perhitungan persentil. Jika semua kolom kosong, sistem akan mengembalikan kesalahan.

  • Anda dapat menentukan beberapa kolom data dalam parameter colName.

Konfigurasikan komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Percentile.

Metode 1: Konfigurasikan komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Percentile pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Pengaturan Parameter

Kolom Input

Klik Pilih Kolom untuk memilih kolom input.

Tuning

Jumlah Core

Jumlah core.

Ukuran Memori per Core

Ukuran memori setiap core.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

PAI -name Percentile
     -project algo_public
     -DinputTableName=maple_test_percentile_3col_input
     -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;

Parameter

Deskripsi

Diperlukan

inputTableName

Nama tabel input.

Ya

outputTableName

Nama tabel output.

Ya

colName

Nama kolom yang akan dihitung. Secara default, semua kolom dipilih.

null

Pisahkan nama kolom ganda dengan koma (,).

Tidak

inputPartitions

Partisi dalam tabel input. Secara default, semua partisi dipilih.

  • Tentukan satu partisi dalam format partition_name=value.

  • Tentukan beberapa partisi dalam format name1=value1,name2=value2.

    null

    Pisahkan beberapa partisi dengan koma (,).

  • Tentukan partisi multi-level dalam format name1=value1/name2=value2.

Tidak

predictInputTableName

Nama tabel prediksi. Setelah Anda menetapkan parameter ini, hasil prediksi dapat dihasilkan.

Tidak

predictInputTablePartitions

Partisi dalam tabel prediksi input.

Tidak

predictSelectedColNames

Nama kolom yang dipilih dari tabel prediksi. Secara default, semua kolom dalam tabel prediksi dipilih. Nama kolom harus sama dengan nama kolom dalam tabel pelatihan.

Tidak

predictSelectedOriginalColNames

Nama kolom yang datanya ingin Anda pertahankan. Secara default, semua kolom dipilih. Pisahkan nama kolom ganda dengan koma (,).

Tidak

predictOutputTableName

Nama tabel output prediksi. Parameter ini digunakan bersama dengan parameter predictInputTableName.

Tidak

lifecycle

Lifecycle tabel output. Secara default, tabel output tidak memiliki lifecycle.

null

Nilai harus bilangan bulat positif.

Tidak

coreNum

Jumlah core. Nilai valid: [1,9999]. Parameter ini digunakan bersama dengan parameter memSizePerCore.

null

Nilai harus bilangan bulat positif.

Tidak

memSizePerCore

Ukuran memori setiap core. Unit: MB. Nilai valid: [1024,64 × 1024].

null

Nilai harus bilangan bulat positif.

Tidak

Contoh

  • Tabel Input

    col0:double (1000 baris)

    col1:bigint (100 baris)

    col2:bigint (300 baris)

    962

    88

    Tue Oct 15 00:26:40 CST 1974

    218

    99

    Thu Jan 04 20:53:20 CST 1973

    565

    44

    Sat Mar 09 02:40:00 CST 1974

    314

    68

    Mon Aug 11 22:40:00 CST 1975

    583

    13

    Sat Aug 23 12:26:40 CST 1975

    615

    87

    Tue May 25 14:13:20 CST 1971

    70

    53

    Fri Mar 23 09:20:00 CST 1979

    929

    63

    Mon Jul 03 16:26:40 CST 1972

    249

    48

    Thu Mar 15 07:33:20 CST 1973

    428

    62

    Wed Mar 17 03:33:20 CST 1971

    119

    1

    Thu Jun 26 15:33:20 CST 1975

    756

    27

    Mon Jan 30 17:20:00 CST 1978

    490

    75

    Wed Dec 11 21:20:00 CST 1974

    957

    12

    Sun Jul 05 12:26:40 CST 1970

    80

    22

    Wed Oct 04 06:40:00 CST 1972

    681

    57

    Wed Nov 03 15:06:40 CST 1971

    13

    95

    Sat Sep 12 23:06:40 CST 1970

  • Perintah PAI

     PAI -name Percentile
         -project algo_public
         -DinputTableName=maple_test_percentile_3col_input
         -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;
  • Tabel Output

    quantile:bigint

    col0:double

    col1:bigint

    col2:datetime

    0

    0.0

    0

    Thu Jan 01 08:00:00 CST 1970

    1

    9.0

    0

    Sat Jan 24 11:33:20 CST 1970

    2

    19.0

    1

    Sat Feb 28 04:53:20 CST 1970

    3

    29.0

    2

    Fri Apr 03 22:13:20 CST 1970

    4

    39.0

    3

    Fri May 08 15:33:20 CST 1970

    5

    49.0

    4

    Fri Jun 12 08:53:20 CST 1970

    6

    59.0

    5

    Fri Jul 17 02:13:20 CST 1970

    7

    69.0

    6

    Thu Aug 20 19:33:20 CST 1970

    8

    79.0

    7

    Thu Sep 24 12:53:20 CST 1970

    9

    89.0

    8

    Thu Oct 29 06:13:20 CST 1970

    10

    99.0

    9

    Wed Dec 02 23:33:20 CST 1970

    11

    109.0

    10

    Wed Jan 06 16:53:20 CST 1971

    12

    119.0

    11

    Wed Feb 10 10:13:20 CST 1971

    13

    129.0

    12

    Wed Mar 17 03:33:20 CST 1971

    14

    139.0

    13

    Tue Apr 20 20:53:20 CST 1971

    15

    149.0

    14

    Tue May 25 14:13:20 CST 1971

    16

    159.0

    15

    Tue Jun 29 07:33:20 CST 1971

    ...

    ...

    ...

    ...

    84

    839.0

    83

    Kam Dec 15 10:13:20 CST 1977

    85

    849.0

    84

    Kam Jan 19 03:33:20 CST 1978

    86

    859.0

    85

    Rab Feb 22 20:53:20 CST 1978

    87

    869.0

    86

    Rab Mar 29 14:13:20 CST 1978

    88

    879.0

    87

    Rab May 03 07:33:20 CST 1978

    89

    889.0

    88

    Rab Jun 07 00:53:20 CST 1978

    90

    899.0

    89

    Sel Jul 11 18:13:20 CST 1978

    91

    909.0

    90

    Sel Aug 15 11:33:20 CST 1978

    92

    919.0

    91

    Sel Sep 19 04:53:20 CST 1978

    93

    929.0

    92

    Sen Oct 23 22:13:20 CST 1978

    94

    939.0

    93

    Sen Nov 27 15:33:20 CST 1978

    95

    949.0

    94

    Sen Jan 01 08:53:20 CST 1979

    96

    959.0

    95

    Sen Feb 05 02:13:20 CST 1979

    97

    969.0

    96

    Ming Mar 11 19:33:20 CST 1979

    98

    979.0

    97

    Ming Apr 15 12:53:20 CST 1979

    99

    989.0

    98

    Ming May 20 06:13:20 CST 1979

    100

    999.0

    99

    Sab Jun 23 23:33:20 CST 1979