全部产品
Search
文档中心

Platform For AI:PS Linear Regression

更新时间:Jul 06, 2025

PS Linear Regression adalah algoritma pembelajaran mesin yang menggabungkan model regresi linier dengan arsitektur server parameter (PS). Algoritma ini dirancang untuk menangani hubungan linear antara variabel dependen dan beberapa variabel independen, sehingga sangat cocok untuk tugas pelatihan pada dataset berskala besar, mendukung volume data dengan ratusan miliar sampel dan miliaran fitur. Dengan memanfaatkan arsitektur server parameter, PS Linear Regression dapat secara efektif mendistribusikan komputasi dan penyimpanan parameter model, meningkatkan efisiensi pelatihan dan skalabilitas.

Parameter komponen

Anda dapat menggunakan salah satu dari metode berikut untuk mengonfigurasi komponen PS Linear Regression dari Platform for AI (PAI).

Metode 1: Mengonfigurasi komponen di konsol PAI

Anda dapat mengonfigurasi parameter komponen PS Linear Regression di Machine Learning Designer. Tabel berikut menjelaskan parameter tersebut.

Tab

Parameter

Deskripsi

Fields Setting

Feature Columns

Kolom fitur yang dipilih dari tabel input untuk pelatihan.

Label Column

Kolom bertipe DOUBLE dan BIGINT didukung.

Use Sparse Format

Menentukan apakah data input dalam format sparse. Data input dalam format sparse ditampilkan sebagai pasangan key-value.

KV Pair Delimiter

Pemisah yang digunakan untuk memisahkan pasangan key-value. Secara default, spasi digunakan.

KV Delimiter

Pemisah yang digunakan untuk memisahkan key dan value jika tabel input adalah tabel sparse. Secara default, titik dua (:) digunakan.

Parameters Setting

L1 weight

Koefisien Regularisasi L1. Nilai yang lebih besar menentukan bahwa model memiliki lebih sedikit elemen non-nol. Jika terjadi overfitting, tingkatkan nilai parameter ini.

L2 weight

Koefisien Regularisasi L2. Nilai yang lebih besar menentukan bahwa nilai absolut parameter model lebih kecil. Jika terjadi overfitting, tingkatkan nilai parameter ini.

Maximum Iterations

Jumlah maksimum iterasi yang dilakukan oleh algoritma. Jika Anda mengatur parameter ini ke 0, jumlah iterasi tidak terbatas.

Minimum Convergence Deviance

Kondisi untuk penghentian algoritma.

Largest Feature ID

ID fitur terbesar atau dimensi fitur. Nilai parameter ini bisa lebih besar dari nilai sebenarnya. Jika Anda tidak menentukan parameter ini, sistem akan otomatis menjalankan tugas SQL untuk menghitung ID fitur terbesar atau dimensi fitur.

Tuning

Cores

Jumlah core. Secara default, sistem menentukan nilainya.

Memory Size per Core

Ukuran memori setiap core. Secara default, sistem menentukan nilainya.

Metode 2: Mengonfigurasi komponen menggunakan perintah PAI

Tabel berikut menjelaskan parameter yang digunakan dalam perintah PAI. Anda dapat menggunakan komponen skrip SQL untuk menjalankan perintah PAI. Untuk informasi lebih lanjut, lihat SQL Script.

# Pelatihan 
PAI -name ps_linearregression
    -project algo_public
    -DinputTableName="lm_test_input"
    -DmodelName="linear_regression_model"
    -DlabelColName="label"
    -DfeatureColNames="features"
    -Dl1Weight=1.0
    -Dl2Weight=0.0
    -DmaxIter=100
    -Depsilon=1e-6
    -DenableSparse=true
# Prediksi 
drop table if exists logistic_regression_predict;
PAI -name prediction
    -DmodelName="linear_regression_model"
    -DoutputTableName="linear_regression_predict"
    -DinputTableName="lm_test_input"
    -DappendColNames="label,features"
    -DfeatureColNames="features"
    -DenableSparse=true

Parameter

Diperlukan

Deskripsi

Nilai default

inputTableName

Ya

Nama tabel input.

N/A

modelName

Ya

Nama model output.

N/A

outputTableName

Tidak

Nama tabel evaluasi model output. Parameter ini diperlukan jika Anda mengatur parameter enableFitGoodness ke true.

N/A

labelColName

Ya

Kolom label yang dipilih dari tabel input. Kolom bertipe DOUBLE dan BIGINT didukung.

N/A

featureColNames

Ya

Kolom fitur yang dipilih dari tabel input untuk pelatihan. Jika data dalam tabel input dalam format padat, kolom bertipe DOUBLE dan BIGINT didukung. Jika data dalam tabel input dalam format sparse, hanya kolom bertipe STRING yang didukung.

N/A

inputTablePartitions

Tidak

Partisi yang dipilih dari tabel input untuk pelatihan.

N/A

enableSparse

Tidak

Menentukan apakah data input dalam format sparse. Nilai valid: {true, false}.

false

itemDelimiter

Tidak

Pemisah yang digunakan untuk memisahkan pasangan key-value. Parameter ini valid hanya jika Anda mengatur parameter enableSparse ke true.

Spasi

kvDelimiter

Tidak

Pemisah yang digunakan untuk memisahkan key dan value. Parameter ini valid hanya jika Anda mengatur parameter enableSparse ke true.

Tanda titik dua (:)

enableModelIo

Tidak

Menentukan apakah model dihasilkan sebagai model offline. Jika Anda mengatur parameter enableModelIo ke false, model dihasilkan dalam tabel MaxCompute. Nilai valid: true dan false.

true

maxIter

Tidak

Jumlah maksimum iterasi yang dilakukan oleh algoritma. Nilai parameter ini harus bilangan bulat non-negatif.

100

epsilon

Tidak

Kondisi untuk penghentian algoritma. Nilai valid: [0,1].

0.000001

l1Weight

Tidak

Koefisien Regularisasi L1. Nilai yang lebih besar menentukan bahwa model memiliki lebih sedikit elemen non-nol. Jika terjadi overfitting, tingkatkan nilai parameter ini.

1.0

l2Weight

Tidak

Koefisien Regularisasi L2. Nilai yang lebih besar menentukan bahwa nilai absolut parameter model lebih kecil. Jika terjadi overfitting, tingkatkan nilai parameter ini.

0

modelSize

Tidak

ID fitur terbesar atau dimensi fitur. Nilai parameter ini bisa lebih besar dari nilai sebenarnya. Jika Anda tidak menentukan parameter ini, sistem akan otomatis menjalankan tugas SQL untuk menghitung ID fitur terbesar atau dimensi fitur. Nilai parameter ini harus bilangan bulat non-negatif.

0

coreNum

Tidak

Jumlah core yang digunakan dalam komputasi.

Ditetapkan oleh sistem

memSizePerCore

Tidak

Ukuran memori setiap core. Unit: MB.

Ditetapkan oleh sistem

Contoh

  1. Jalankan pernyataan SQL berikut untuk menghasilkan data input menggunakan komponen SQL Script. Dalam contoh ini, data input dalam format key-value dihasilkan.

    drop table if exists lm_test_input;
    create table lm_test_input as
    select
    *
    from
    (
    select cast(2 as BIGINT) as label, '1:0.55 2:-0.15 3:0.82 4:-0.99 5:0.17' as features
        union all
    select cast(1 as BIGINT) as label, '1:-1.26 2:1.36 3:-0.13 4:-2.82 5:-0.41' as features
        union all
    select cast(1 as BIGINT) as label, '1:-0.77 2:0.91 3:-0.23 4:-4.46 5:0.91' as features
        union all
    select cast(2 as BIGINT) as label, '1:0.86 2:-0.22 3:-0.46 4:0.08 5:-0.60' as features
        union all
    select cast(1 as BIGINT) as label, '1:-0.76 2:0.89 3:1.02 4:-0.78 5:-0.86' as features
        union all
    select cast(1 as BIGINT) as label, '1:2.22 2:-0.46 3:0.49 4:0.31 5:-1.84' as features
        union all
    select cast(0 as BIGINT) as label, '1:-1.21 2:0.09 3:0.23 4:2.04 5:0.30' as features
        union all
    select cast(1 as BIGINT) as label, '1:2.17 2:-0.45 3:-1.22 4:-0.48 5:-1.41' as features
        union all
    select cast(0 as BIGINT) as label, '1:-0.40 2:0.63 3:0.56 4:0.74 5:-1.44' as features
        union all
    select cast(1 as BIGINT) as label, '1:0.17 2:0.49 3:-1.50 4:-2.20 5:-0.35' as features
    ) tmp;

    Data input yang dihasilkan ditunjukkan pada gambar berikut.11

    Catatan

    Jika data input dalam format key-value, ID fitur harus bilangan bulat positif, dan nilai fitur harus bilangan real. Jika tipe data ID fitur adalah STRING, Anda harus menggunakan komponen serialisasi untuk menyerilisasi data input. Jika nilai fitur adalah string kategorikal, Anda harus melakukan diskretisasi fitur untuk memproses fitur tersebut.

  2. Buat pipeline seperti yang ditunjukkan pada gambar berikut. Untuk informasi lebih lanjut, lihat Pemodelan Algoritma. image

  3. Konfigurasikan parameter komponen.

    1. Di kanvas, klik komponen Read Table-1. Pada tab Select Table di panel kanan, atur Table Name menjadi lm_test_input.

    2. Konfigurasikan parameter komponen PS Linear Regression. Tabel berikut menjelaskan parameter tersebut. Gunakan nilai default untuk parameter lainnya.

      Tab

      Parameter

      Deskripsi

      Fields Setting

      Use Sparse Format

      Atur parameter ke true.

      Feature Columns

      Pilih kolom features.

      Label Column

      Pilih kolom label.

      Tuning

      Cores

      Atur parameter ke 3.

      Memory Size per Core

      Atur parameter ke 1024. Unit: MB.

    3. Konfigurasikan parameter yang tercantum dalam tabel berikut untuk komponen Prediksi. Pertahankan nilai default untuk parameter yang tidak tercantum dalam tabel.

      Tab

      Parameter

      Deskripsi

      Fields Setting

      Feature Columns

      Pilih kolom features.

      Reserved Columns

      Pilih kolom label dan features.

      Sparse Matrix

      Pilih Sparse Matrix.

      KV Delimiter

      Atur nilai ke tanda titik dua (:).

      KV Pair Delimiter

      Biarkan parameter ini kosong, yang menentukan bahwa spasi digunakan sebagai pemisah.

  4. Klik ikon image di kanvas untuk menjalankan pipeline.

  5. Setelah Anda menjalankan pipeline, klik kanan komponen Prediction -1 dan pilih View Data > Prediction Result Output Port. PS线性回归预测结果