全部产品
Search
文档中心

Platform For AI:Uji T Dua Sampel

更新时间:Jul 02, 2025

Komponen Uji T Dua Sampel digunakan untuk memeriksa apakah rata-rata populasi dari dua sampel secara signifikan berbeda satu sama lain berdasarkan prinsip-prinsip statistik. Topik ini menjelaskan cara mengonfigurasi parameter untuk komponen Uji T Dua Sampel yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio). Topik ini juga memberikan contoh penggunaan komponen tersebut.

Mengonfigurasi komponen

Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Uji T Dua Sampel.

Metode 1: Mengonfigurasi komponen pada halaman pipeline

Anda dapat mengonfigurasi parameter komponen Uji T Dua Sampel pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Sample 1 Column

Kolom yang berisi Sampel 1.

Sample 2 Column

Kolom yang berisi Sampel 2.

Parameters Setting

T Test Type

Tipe Uji T yang ingin Anda lakukan. Nilai valid:

  • Uji T Independen: Periksa apakah rata-rata populasi dari dua sampel independen secara signifikan berbeda satu sama lain. Kedua sampel yang diuji harus independen satu sama lain dan umumnya memiliki distribusi normal.

  • Uji T Berpasangan: Periksa apakah rata-rata populasi dari dua sampel berpasangan secara signifikan berbeda satu sama lain.

Alternative Hypothesis Type

Tipe hipotesis alternatif. Nilai valid:

  • two.sided: Periksa apakah rata-rata populasi lebih besar atau lebih kecil dari nilai hipotetis.

  • less: Periksa apakah rata-rata populasi lebih kecil dari nilai hipotetis.

  • greater: Periksa apakah rata-rata populasi lebih besar dari nilai hipotetis.

Confidence Level

Tingkat kepercayaan hasil uji. Nilai valid: 0,8, 0,9, 0,95, 0,99, 0,995, dan 0,999.

Hypothesized Mean

Rata-rata hipotetis. Nilai default: 0.

Variances of Two Populations Are Equal

Menentukan apakah variansi dua populasi sama. Nilai valid: true dan false.

Cores

Jumlah core. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter Memory Size Per Core. Nilai valid: 1 hingga 9999.

Memory Size Per Core

Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536.

Metode 2: Gunakan perintah PAI

Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

pai -name t_test 
    -project algo_public 
    -DxTableName=pai_t_test_all_type
    -DxColName=col1_double
    -DxTablePartitions=ds=2010/dt=1
    -DyTableName=pai_t_test_all_type
    -DyColName=col1_double
    -DyTablePartitions=ds=2010/dt=1 
    -DoutputTableName=pai_t_test_out
    -Dalternative=less
    -Dmu=47
    -DconfidenceLevel=0.95
    -Dpaired=false
    -DvarEqual=true

Parameter

Diperlukan

Deskripsi

Nilai default

xTableName

Ya

Nama Tabel Input x.

N/A

xTablePartitions

Tidak

Satu atau lebih partisi dalam Tabel Input x yang digunakan dalam uji T. Format berikut didukung:

  • Partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

Semua partisi

xColName

Ya

Kolom dalam Tabel Input x yang digunakan dalam uji T. Nilainya harus bertipe DOUBLE atau INT.

N/A

yTableName

Ya

Nama Tabel Input y.

N/A

yTablePartitions

Tidak

Satu atau lebih partisi dalam Tabel Input y yang digunakan dalam uji T. Format berikut didukung:

  • Partition_name=value

  • name1=value1/name2=value2: partisi multi-level

Catatan

Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,).

Semua partisi

yColName

Ya

Kolom dalam Tabel Input y yang digunakan dalam uji T. Nilainya harus bertipe DOUBLE atau INT.

N/A

paired

Tidak

  • true: uji T berpasangan

  • false: uji T independen

false

alternative

Tidak

Tipe hipotesis alternatif. Nilai valid: two.sided, less, dan greater.

two.sided

mu

Tidak

Rata-rata hipotetis. Nilainya harus bertipe DOUBLE.

0

varEqual

Tidak

Menentukan apakah variansi dua populasi sama. Nilai valid: true dan false.

false

confidenceLevel

Tidak

Tingkat kepercayaan hasil uji. Nilai valid: 0,8, 0,9, 0,95, 0,99, 0,995, dan 0,999.

0,95

coreNum

Tidak

Jumlah core. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter memSizePerCore. Nilai valid: 1 hingga 9999.

Ditentukan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536.

Ditentukan oleh sistem

lifecycle

Tidak

Lifecycle tabel output.

N/A

Jika tabel input adalah tabel biasa tetapi bukan tabel terpartisi, kami sarankan Anda tidak mengatur parameter coreNum dan memSizePerCore. Sebagai gantinya, gunakan nilai default yang ditentukan oleh sistem. Jika Anda tidak memiliki sumber daya komputasi yang cukup, gunakan kode berikut untuk menghitung jumlah sumber daya komputasi yang dibutuhkan:

def CalcCoreNumAndMem(row,centerCount,kOneCoreDataSize=1024):
    """Hitung jumlah core dan ukuran memori setiap core.            
       Args:
           row: jumlah baris dalam tabel input. 
           centerCount: jumlah kolom dalam tabel input. 
           kOneCoreDataSize: jumlah data yang dapat dihitung oleh setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai default: 1024. 
       Return:
           coreNum,memSizePerCore                 
       Contoh:
           coreNum,memSizePerCore = CalcCoreNumAndMem(1000,99,100,kOneCoreDataSize=2048)

    """
    kMBytes = 1024.0 * 1024.0
    # Jumlah core yang terlibat dalam komputasi. 
    coreNum = max(1, int(row * 2 * 8 / kMBytes / kOneCoreDataSize))
    # Ukuran memori per core = Jumlah data. 
    memSizePerCore = max(1024,int(kOneCoreDataSize * 2))
    return coreNum,memSizePerCore

Contoh

  • Data Uji

    create table pai_test_input as
    select * from
    (
      select 1 as f0,2 as f1
      union all
      select 1 as f0,3 as f1
      union all
      select 1 as f0,4 as f1
      union all
      select 0 as f0,3 as f1
      union all
      select 0 as f0,4 as f1
    )tmp;
  • Perintah PAI

    pai -name t_test 
        -project algo_public 
        -DxTableName=pai_test_input
        -DxColName=f0
        -DyTableName=pai_test_input
        -DyColName=f1
        -DyTablePartitions=ds=2010/dt=1 
        -DoutputTableName=pai_t_test_out
        -Dalternative=less
        -Dmu=47
        -DconfidenceLevel=0.95
        -Dpaired=false
        -DvarEqual=true
  • Output

    Tabel output dalam format JSON dan hanya berisi satu baris serta satu kolom.

    {
        "AlternativeHypthesis": "difference in means not equals to 0",
        "ConfidenceInterval": "(-2.5465, -0.4535)",
        "ConfidenceLevel": 0.95,
        "alpha": 0.05000000000000004,
        "df": 19,
        "mean of the differences": -1.5,
        "p": 0.008000000000000007,
        "t": -3
    }