Kurva Lorenz adalah grafik yang digunakan untuk menggambarkan ketidaksetaraan distribusi dalam dataset dan sering digunakan untuk menampilkan distribusi pendapatan atau kekayaan dalam suatu ekonomi. Grafik ini memplot persentase kumulatif sumber daya terhadap persentase kumulatif populasi untuk memberikan gambaran intuitif tentang ketidaksetaraan distribusi. Dalam pembelajaran mesin, Kurva Lorenz dapat digunakan untuk mengevaluasi keadilan prediksi model atau bias dalam alokasi sumber daya.
Konfigurasikan komponen
Metode 1: Konfigurasikan komponen di halaman pipeline
Di halaman detail pipeline dalam Machine Learning Designer, tambahkan komponen Kurva Lorenz ke pipeline dan konfigurasikan parameter sesuai dengan tabel berikut.
Tab | Parameter | Deskripsi |
Fields Setting | Pilih Kolom | Pilih kolom fitur yang ingin Anda gunakan untuk memplot kurva. Kolom ini mencakup data yang dapat Anda gunakan untuk menganalisis ketidaksetaraan distribusi, seperti pendapatan, kekayaan, atau skor. |
Parameters Setting | Kuantil | Jumlah interval probabilitas sama ke dalam mana Anda membagi dataset untuk memplot kurva. Anda dapat menentukan kuantil yang sesuai untuk mengontrol granularitas kurva. Ini memungkinkan analisis yang lebih rinci tentang ketidaksetaraan dalam distribusi data. |
Tuning | Jumlah Core Komputasi | Jumlah core yang digunakan dalam komputasi. Nilai harus berupa bilangan bulat positif. |
Ukuran Memori per Core (Unit: MB) | Ukuran memori setiap core. |
Metode 2: Gunakan perintah PAI
Konfigurasikan parameter komponen menggunakan perintah Platform for AI (PAI). Anda dapat menggunakan komponen SQL Script untuk memanggil perintah PAI. Untuk informasi lebih lanjut, lihat Skenario 4: Jalankan Perintah PAI dalam Komponen Skrip SQL.
PAI -name LorenzCurve
-project algo_public
-DinputTableName=maple_test_lorenz_basic10_input
-DcolName=col0
-DoutputTableName=maple_test_lorenz_basic10_output -DcoreNum=20
-DmemSizePerCore=110;Parameter | Diperlukan | Nilai default | Deskripsi |
inputTableName | Ya | Tidak ada nilai default | Nama tabel input. |
outputTableName | Ya | Tidak ada nilai default | Nama tabel output. |
colName | Tidak | Tidak ada nilai default | Kolom yang dipilih dari tabel input. Anda dapat memilih beberapa kolom dan memisahkannya dengan koma (,). |
N | Tidak | 100 | Kuantil. |
inputTablePartitions | Tidak | Tidak ada nilai default | Partisi yang dipilih dari tabel input untuk pelatihan. Format berikut didukung:
Catatan Jika Anda menentukan beberapa partisi, pisahkan mereka dengan koma (,). Contoh: name1=value1,value2. |
lifecycle | Tidak | 28 | Lifecycle tabel output. Nilai ini harus berupa bilangan bulat. Unit: hari. |
coreNum | Tidak | Ditentukan oleh sistem | Parameter ini digunakan bersama dengan memSizePerCore. Nilai harus berupa bilangan bulat positif. Sistem menghitung jumlah instance berdasarkan jumlah data input. |
memSizePerCore | Tidak | Ditentukan oleh sistem | Ukuran memori setiap core. Unit: MB. Nilai harus berupa bilangan bulat positif. Nilai yang direkomendasikan: (1024,64 × 1024). |
Contoh
Hasilkan data uji berikut:
col0:double
4
7
2
8
6
3
9
5
0
1
10
Jalankan perintah PAI berikut:
PAI -name LorenzCurve -project algo_public -DinputTableName=maple_test_lorenz_basic10_input -DcolName=col0 -DoutputTableName=maple_test_lorenz_basic10_output -DcoreNum=20 -DmemSizePerCore=110;Lihat output seperti yang dijelaskan dalam tabel berikut:
kuantil
col0
0
0
1
0,01818181818181818
2
0,01818181818181818
3
0,01818181818181818
4
0,01818181818181818
5
0,01818181818181818
6
0,01818181818181818
7
0,01818181818181818
8
0,01818181818181818
9
0,01818181818181818
10
0,01818181818181818
11
0,05454545454545454
12
0,05454545454545454
13
0,05454545454545454
14
0,05454545454545454
...
...
85
0,8181818181818182
86
0,8181818181818182
87
0,8181818181818182
88
0,8181818181818182
89
0,8181818181818182
90
1
91
1
92
1
93
1
94
1
95
1
96
1
97
1
98
1
99
1
100
1