Komponen Uji T Dua Sampel digunakan untuk memeriksa apakah rata-rata populasi dari dua sampel secara signifikan berbeda satu sama lain berdasarkan prinsip-prinsip statistik. Topik ini menjelaskan cara mengonfigurasi parameter untuk komponen Uji T Dua Sampel yang disediakan oleh Machine Learning Designer (sebelumnya dikenal sebagai Machine Learning Studio). Topik ini juga memberikan contoh penggunaan komponen tersebut.
Mengonfigurasi komponen
Anda dapat menggunakan salah satu metode berikut untuk mengonfigurasi komponen Uji T Dua Sampel.
Metode 1: Mengonfigurasi komponen pada halaman pipeline
Anda dapat mengonfigurasi parameter komponen Uji T Dua Sampel pada halaman pipeline Machine Learning Designer dari Platform for AI (PAI). Machine Learning Designer sebelumnya dikenal sebagai Machine Learning Studio. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Sample 1 Column | Kolom yang berisi Sampel 1. |
Sample 2 Column | Kolom yang berisi Sampel 2. | |
Parameters Setting | T Test Type | Tipe Uji T yang ingin Anda lakukan. Nilai valid:
|
Alternative Hypothesis Type | Tipe hipotesis alternatif. Nilai valid:
| |
Confidence Level | Tingkat kepercayaan hasil uji. Nilai valid: 0,8, 0,9, 0,95, 0,99, 0,995, dan 0,999. | |
Hypothesized Mean | Rata-rata hipotetis. Nilai default: 0. | |
Variances of Two Populations Are Equal | Menentukan apakah variansi dua populasi sama. Nilai valid: true dan false. | |
Cores | Jumlah core. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter Memory Size Per Core. Nilai valid: 1 hingga 9999. | |
Memory Size Per Core | Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen dengan menggunakan perintah PAI. Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
pai -name t_test
-project algo_public
-DxTableName=pai_t_test_all_type
-DxColName=col1_double
-DxTablePartitions=ds=2010/dt=1
-DyTableName=pai_t_test_all_type
-DyColName=col1_double
-DyTablePartitions=ds=2010/dt=1
-DoutputTableName=pai_t_test_out
-Dalternative=less
-Dmu=47
-DconfidenceLevel=0.95
-Dpaired=false
-DvarEqual=trueParameter | Diperlukan | Deskripsi | Nilai default |
xTableName | Ya | Nama Tabel Input x. | N/A |
xTablePartitions | Tidak | Satu atau lebih partisi dalam Tabel Input x yang digunakan dalam uji T. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Semua partisi |
xColName | Ya | Kolom dalam Tabel Input x yang digunakan dalam uji T. Nilainya harus bertipe DOUBLE atau INT. | N/A |
yTableName | Ya | Nama Tabel Input y. | N/A |
yTablePartitions | Tidak | Satu atau lebih partisi dalam Tabel Input y yang digunakan dalam uji T. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). | Semua partisi |
yColName | Ya | Kolom dalam Tabel Input y yang digunakan dalam uji T. Nilainya harus bertipe DOUBLE atau INT. | N/A |
paired | Tidak |
| false |
alternative | Tidak | Tipe hipotesis alternatif. Nilai valid: two.sided, less, dan greater. | two.sided |
mu | Tidak | Rata-rata hipotetis. Nilainya harus bertipe DOUBLE. | 0 |
varEqual | Tidak | Menentukan apakah variansi dua populasi sama. Nilai valid: true dan false. | false |
confidenceLevel | Tidak | Tingkat kepercayaan hasil uji. Nilai valid: 0,8, 0,9, 0,95, 0,99, 0,995, dan 0,999. | 0,95 |
coreNum | Tidak | Jumlah core. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter memSizePerCore. Nilai valid: 1 hingga 9999. | Ditentukan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536. | Ditentukan oleh sistem |
lifecycle | Tidak | Lifecycle tabel output. | N/A |
Jika tabel input adalah tabel biasa tetapi bukan tabel terpartisi, kami sarankan Anda tidak mengatur parameter coreNum dan memSizePerCore. Sebagai gantinya, gunakan nilai default yang ditentukan oleh sistem. Jika Anda tidak memiliki sumber daya komputasi yang cukup, gunakan kode berikut untuk menghitung jumlah sumber daya komputasi yang dibutuhkan:
def CalcCoreNumAndMem(row,centerCount,kOneCoreDataSize=1024):
"""Hitung jumlah core dan ukuran memori setiap core.
Args:
row: jumlah baris dalam tabel input.
centerCount: jumlah kolom dalam tabel input.
kOneCoreDataSize: jumlah data yang dapat dihitung oleh setiap core. Unit: MB. Nilainya harus bilangan bulat positif. Nilai default: 1024.
Return:
coreNum,memSizePerCore
Contoh:
coreNum,memSizePerCore = CalcCoreNumAndMem(1000,99,100,kOneCoreDataSize=2048)
"""
kMBytes = 1024.0 * 1024.0
# Jumlah core yang terlibat dalam komputasi.
coreNum = max(1, int(row * 2 * 8 / kMBytes / kOneCoreDataSize))
# Ukuran memori per core = Jumlah data.
memSizePerCore = max(1024,int(kOneCoreDataSize * 2))
return coreNum,memSizePerCoreContoh
Data Uji
create table pai_test_input as select * from ( select 1 as f0,2 as f1 union all select 1 as f0,3 as f1 union all select 1 as f0,4 as f1 union all select 0 as f0,3 as f1 union all select 0 as f0,4 as f1 )tmp;Perintah PAI
pai -name t_test -project algo_public -DxTableName=pai_test_input -DxColName=f0 -DyTableName=pai_test_input -DyColName=f1 -DyTablePartitions=ds=2010/dt=1 -DoutputTableName=pai_t_test_out -Dalternative=less -Dmu=47 -DconfidenceLevel=0.95 -Dpaired=false -DvarEqual=trueOutput
Tabel output dalam format JSON dan hanya berisi satu baris serta satu kolom.
{ "AlternativeHypthesis": "difference in means not equals to 0", "ConfidenceInterval": "(-2.5465, -0.4535)", "ConfidenceLevel": 0.95, "alpha": 0.05000000000000004, "df": 19, "mean of the differences": -1.5, "p": 0.008000000000000007, "t": -3 }