全部产品
Search
文档中心

Platform For AI:Statistik Tabel Keseluruhan

更新时间:Jun 22, 2025

Komponen Statistik Tabel Keseluruhan adalah metode analisis statistik dasar yang diterapkan pada seluruh dataset. Komponen ini menghitung dan merangkum metrik seperti rata-rata, median, deviasi standar, nilai minimum, maksimum, serta jumlah nilai yang hilang. Komponen ini membantu menilai karakteristik keseluruhan dan kualitas data secara cepat, memberikan informasi dasar untuk pembersihan data, rekayasa fitur, dan pengembangan model.

Konfigurasikan komponen

Metode 1: Konfigurasikan komponen di halaman pipeline

Di halaman detail pipeline dalam Machine Learning Designer, tambahkan komponen Statistik Tabel Keseluruhan ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.

Tab

Parameter

Deskripsi

Pengaturan Bidang

Kolom Input (Semua Kolom Secara Default)

Klik Pilih Bidang untuk memilih kolom input untuk analisis statistik. Secara default, semua kolom dipilih.

Tuning

Jumlah Core

Jumlah core.

Ukuran Memori

Ukuran memori setiap core.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen SQL Script.

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

Parameter

Diperlukan

Deskripsi

inputTableName

Ya

Nama tabel input.

outputTableName

Ya

Nama tabel output.

inputTablePartitions

Tidak

Partisi dalam tabel input. Secara default, semua partisi dipilih.

selectColNames

Tidak

Nama kolom yang dipilih untuk statistik.

lifecycle

Tidak

Lifecycle tabel output. Secara default, tabel output tidak memiliki lifecycle.

null

Nilainya harus bilangan bulat positif.

coreNum

Tidak

Jumlah core.

null

Nilainya harus bilangan bulat positif.

memSizePerCore

Tidak

Ukuran memori setiap core. Satuan: MB. Nilai valid: [1024,64 x 1024].

null

Nilainya harus bilangan bulat positif.

Contoh

  1. Di halaman detail pipeline, tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Di tab Parameters Setting, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script:

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  2. Tambahkan komponen SQL Script ke pipeline dan klik komponen tersebut. Di tab Parameters Setting, hapus centang pada Use Script Mode dan Whether the system adds a create table statement, lalu masukkan pernyataan SQL berikut di editor SQL Script. Hubungkan komponen ini dengan komponen yang ditambahkan di Langkah 1.

    drop table if exists ${o1};
    PAI -name stat_summary
        -project algo_public
        -DinputTableName=summary_test_input
        -DoutputTableName=${o1}
        -DselectColNames=col1,col2,col3
        -Dlifecycle=1;
  3. Di sudut kiri atas kanvas, klik image untuk menjalankan pipeline.

  4. Setelah pipeline dijalankan, klik kanan komponen yang ditambahkan di Langkah 2, pilih View data, lalu pilih SQL Script Output.

    | colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min   | max    | mean    | variance          | standarddeviation  | standarderror     | skewness              | kurtosis           | moment2           | moment3           | moment4           | centralmoment2 | centralmoment3       | centralmoment4    | sum     | sum2         | sum3              | sum4           |
    | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- |
    | col1    | string   | 2          | 2     | 0            | 0        | 0                     | 0                     |       |        |         |                   |                    |                   |                       |                    |                   |                   |                   |                |                      |                   |         |              |                   |                |
    | col2    | bigint   | 2          | 2     | 0            | 0        | 0                     | 0                     | 1     | 2      | 1.5     | 0.5               | 0.7071067811865476 | 0.5               | 0                     | -2                 | 2.5               | 4.5               | 8.5               | 0.25           | 0                    | 0.0625            | 3       | 5            | 9                 | 17             |
    | col3    | double   | 2          | 2     | 0            | 0        | 0                     | 0                     | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544  | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |

    Kolom

    Deskripsi

    colname

    Nama kolom.

    datatype

    Tipe data.

    totalcount

    Jumlah total.

    count

    Jumlah nilai non-NULL.

    missingcount

    Jumlah nilai NULL.

    nancount

    Jumlah nilai NaN.

    positiveinfinitycount

    Jumlah nilai tak terhingga positif.

    negativeinfinitycount

    Jumlah nilai tak terhingga negatif.

    min

    Nilai minimum.

    max

    Nilai maksimum.

    mean

    Nilai rata-rata.

    variance

    Variansi.

    standarddeviation

    Deviasi standar.

    standarderror

    Galat standar.

    skewness

    Kemiringan.

    kurtosis

    Kurtosis.

    moment2

    Momen kedua.

    moment3

    Momen ketiga.

    moment4

    Momen keempat.

    centralmoment2

    Momen pusat kedua.

    centralmoment3

    Momen pusat ketiga.

    centralmoment4

    Momen pusat keempat.

    sum

    Jumlah.

    sum2

    Jumlah kuadrat.

    sum3

    Jumlah pangkat tiga.

    sum4

    Jumlah pangkat empat.