PS Linear Regression adalah algoritma pembelajaran mesin yang menggabungkan model regresi linier dengan arsitektur server parameter (PS). Algoritma ini dirancang untuk menangani hubungan linear antara variabel dependen dan beberapa variabel independen, sehingga sangat cocok untuk tugas pelatihan pada dataset berskala besar, mendukung volume data dengan ratusan miliar sampel dan miliaran fitur. Dengan memanfaatkan arsitektur server parameter, PS Linear Regression dapat secara efektif mendistribusikan komputasi dan penyimpanan parameter model, meningkatkan efisiensi pelatihan dan skalabilitas.
Parameter komponen
Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi komponen PS Linear Regression dari Platform for AI (PAI).
Metode 1: Mengonfigurasi komponen di konsol PAI
Anda dapat mengonfigurasi parameter komponen PS Linear Regression di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.
Tab | Parameter | Deskripsi |
Fields Setting | Feature Columns | Kolom fitur yang dipilih dari tabel input untuk pelatihan. |
Label Column | Kolom bertipe DOUBLE dan BIGINT didukung. | |
Use Sparse Format | Menentukan apakah data input dalam format sparse. Data input dalam format sparse ditampilkan sebagai pasangan key-value. | |
KV Pair Delimiter | Pemisah yang digunakan untuk memisahkan pasangan key-value. Secara default, spasi digunakan. | |
KV Delimiter | Pemisah yang digunakan untuk memisahkan key dan value jika tabel input adalah tabel sparse. Secara default, titik dua (:) digunakan. | |
Parameters Setting | L1 weight | Koefisien Regularisasi L1. Nilai yang lebih besar menentukan bahwa model memiliki lebih sedikit elemen non-nol. Jika terjadi overfitting, tingkatkan nilai parameter ini. |
L2 weight | Koefisien Regularisasi L2. Nilai yang lebih besar menentukan bahwa nilai absolut parameter model lebih kecil. Jika terjadi overfitting, tingkatkan nilai parameter ini. | |
Maximum Iterations | Jumlah maksimum iterasi yang dilakukan oleh algoritma. Jika Anda mengatur parameter ini ke 0, jumlah iterasi tidak terbatas. | |
Minimum Convergence Deviance | Kondisi untuk penghentian algoritma. | |
Largest Feature ID | ID fitur terbesar atau dimensi fitur. Nilai parameter ini bisa lebih besar dari nilai sebenarnya. Jika Anda tidak menentukan parameter ini, sistem akan otomatis menjalankan tugas SQL untuk menghitung ID fitur terbesar atau dimensi fitur. | |
Tuning | Cores | Jumlah core. Secara default, sistem menentukan nilainya. |
Memory Size per Core | Ukuran memori setiap core. Secara default, sistem menentukan nilainya. |
Metode 2: Mengonfigurasi komponen menggunakan perintah PAI
Tabel berikut menjelaskan parameter yang digunakan dalam perintah PAI. Anda dapat menggunakan komponen skrip SQL untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.
# Pelatihan
PAI -name ps_linearregression
-project algo_public
-DinputTableName="lm_test_input"
-DmodelName="linear_regression_model"
-DlabelColName="label"
-DfeatureColNames="features"
-Dl1Weight=1.0
-Dl2Weight=0.0
-DmaxIter=100
-Depsilon=1e-6
-DenableSparse=true
# Prediksi
drop table if exists logistic_regression_predict;
PAI -name prediction
-DmodelName="linear_regression_model"
-DoutputTableName="linear_regression_predict"
-DinputTableName="lm_test_input"
-DappendColNames="label,features"
-DfeatureColNames="features"
-DenableSparse=trueParameter | Diperlukan | Deskripsi | Nilai default |
inputTableName | Ya | Nama tabel input. | N/A |
modelName | Ya | Nama model output. | N/A |
outputTableName | Tidak | Nama tabel evaluasi model output. Parameter ini diperlukan jika Anda mengatur parameter enableFitGoodness ke true. | N/A |
labelColName | Ya | Kolom label yang dipilih dari tabel input. Kolom bertipe DOUBLE dan BIGINT didukung. | N/A |
featureColNames | Ya | Kolom fitur yang dipilih dari tabel input untuk pelatihan. Jika data dalam tabel input dalam format padat, kolom bertipe DOUBLE dan BIGINT didukung. Jika data dalam tabel input dalam format sparse, hanya kolom bertipe STRING yang didukung. | N/A |
inputTablePartitions | Tidak | Partisi yang dipilih dari tabel input untuk pelatihan. | N/A |
enableSparse | Tidak | Menentukan apakah data input dalam format sparse. Nilai valid: {true, false}. | false |
itemDelimiter | Tidak | Pemisah yang digunakan untuk memisahkan pasangan key-value. Parameter ini valid hanya jika Anda mengatur parameter enableSparse ke true. | Spasi |
kvDelimiter | Tidak | Pemisah yang digunakan untuk memisahkan key dan value. Parameter ini valid hanya jika Anda mengatur parameter enableSparse ke true. | Tanda titik dua (:) |
enableModelIo | Tidak | Menentukan apakah model dihasilkan sebagai model offline. Jika Anda mengatur parameter enableModelIo ke false, model dihasilkan dalam tabel MaxCompute. Nilai valid: true dan false. | true |
maxIter | Tidak | Jumlah maksimum iterasi yang dilakukan oleh algoritma. Nilai parameter ini harus bilangan bulat non-negatif. | 100 |
epsilon | Tidak | Kondisi untuk penghentian algoritma. Nilai valid: [0,1]. | 0.000001 |
l1Weight | Tidak | Koefisien Regularisasi L1. Nilai yang lebih besar menentukan bahwa model memiliki lebih sedikit elemen non-nol. Jika terjadi overfitting, tingkatkan nilai parameter ini. | 1.0 |
l2Weight | Tidak | Koefisien Regularisasi L2. Nilai yang lebih besar menentukan bahwa nilai absolut parameter model lebih kecil. Jika terjadi overfitting, tingkatkan nilai parameter ini. | 0 |
modelSize | Tidak | ID fitur terbesar atau dimensi fitur. Nilai parameter ini bisa lebih besar dari nilai sebenarnya. Jika Anda tidak menentukan parameter ini, sistem akan otomatis menjalankan tugas SQL untuk menghitung ID fitur terbesar atau dimensi fitur. Nilai parameter ini harus bilangan bulat non-negatif. | 0 |
coreNum | Tidak | Jumlah core yang digunakan dalam komputasi. | Ditetapkan oleh sistem |
memSizePerCore | Tidak | Ukuran memori setiap core. Unit: MB. | Ditetapkan oleh sistem |
Contoh
Jalankan pernyataan SQL berikut untuk menghasilkan data input menggunakan komponen SQL Script. Dalam contoh ini, data input dalam format key-value dihasilkan.
drop table if exists lm_test_input; create table lm_test_input as select * from ( select cast(2 as BIGINT) as label, '1:0.55 2:-0.15 3:0.82 4:-0.99 5:0.17' as features union all select cast(1 as BIGINT) as label, '1:-1.26 2:1.36 3:-0.13 4:-2.82 5:-0.41' as features union all select cast(1 as BIGINT) as label, '1:-0.77 2:0.91 3:-0.23 4:-4.46 5:0.91' as features union all select cast(2 as BIGINT) as label, '1:0.86 2:-0.22 3:-0.46 4:0.08 5:-0.60' as features union all select cast(1 as BIGINT) as label, '1:-0.76 2:0.89 3:1.02 4:-0.78 5:-0.86' as features union all select cast(1 as BIGINT) as label, '1:2.22 2:-0.46 3:0.49 4:0.31 5:-1.84' as features union all select cast(0 as BIGINT) as label, '1:-1.21 2:0.09 3:0.23 4:2.04 5:0.30' as features union all select cast(1 as BIGINT) as label, '1:2.17 2:-0.45 3:-1.22 4:-0.48 5:-1.41' as features union all select cast(0 as BIGINT) as label, '1:-0.40 2:0.63 3:0.56 4:0.74 5:-1.44' as features union all select cast(1 as BIGINT) as label, '1:0.17 2:0.49 3:-1.50 4:-2.20 5:-0.35' as features ) tmp;Data input yang dihasilkan ditunjukkan pada gambar berikut.
CatatanJika data input dalam format key-value, ID fitur harus bilangan bulat positif, dan nilai fitur harus bilangan real. Jika tipe data ID fitur adalah STRING, Anda harus menggunakan komponen serialisasi untuk menyerilisasi data input. Jika nilai fitur adalah string kategorikal, Anda harus melakukan diskretisasi fitur untuk memproses fitur tersebut.
Buat pipeline seperti yang ditunjukkan pada gambar berikut. Untuk informasi lebih lanjut, lihat Pemodelan Algoritma.

Konfigurasikan parameter komponen.
Di kanvas, klik komponen Read Table-1. Pada tab Select Table di panel kanan, atur Table Name menjadi lm_test_input.
Konfigurasikan parameter komponen PS Linear Regression. Tabel berikut menjelaskan parameter tersebut. Gunakan nilai default untuk parameter lainnya.
Tab
Parameter
Deskripsi
Fields Setting
Use Sparse Format
Atur parameter ke true.
Feature Columns
Pilih kolom features.
Label Column
Pilih kolom label.
Tuning
Cores
Atur parameter ke 3.
Memory Size per Core
Atur parameter ke 1024. Unit: MB.
Konfigurasikan parameter yang tercantum dalam tabel berikut untuk komponen Prediksi. Pertahankan nilai default untuk parameter yang tidak tercantum dalam tabel.
Tab
Parameter
Deskripsi
Fields Setting
Feature Columns
Pilih kolom features.
Reserved Columns
Pilih kolom label dan features.
Sparse Matrix
Pilih Sparse Matrix.
KV Delimiter
Atur nilai ke tanda titik dua (:).
KV Pair Delimiter
Biarkan parameter ini kosong, yang menentukan bahwa spasi digunakan sebagai pemisah.
Klik ikon
di kanvas untuk menjalankan pipeline.Setelah Anda menjalankan pipeline, klik kanan komponen Prediction -1 dan pilih .
