Build & Deploy a Logistic Regression Model in PAI Designer-Platform for AI-Alibaba Cloud

Di Machine Learning Designer, Anda membuat model menggunakan alur kerja. Setelah membuat alur kerja, Anda dapat mengatur logika pemrosesan dan penjadwalan berbagai komponen untuk memenuhi kebutuhan pemodelan Anda. Topik ini menggunakan alur kerja kosong untuk membangun model klasifikasi biner guna memprediksi penyakit jantung dan memandu Anda melalui seluruh proses pembuatan dan penerapan model secara visual.

Prasyarat

Anda telah mengaktifkan PAI dan membuat ruang kerja. Untuk informasi lebih lanjut, lihat Aktifkan PAI dan Buat Ruang Kerja Default.
Anda telah mengaitkan ruang kerja Anda dengan resource MaxCompute. Untuk informasi lebih lanjut, lihat Mulai Cepat: Persiapan.

Langkah 1: Buat Alur Kerja

Buka Machine Learning Designer, pilih ruang kerja untuk membuka halaman Designer, lalu buat dan buka alur kerja.

Parameter	Deskripsi
Workflow name	Nama kustom.
Workflow data storage	Konfigurasikan parameter ini. Tetapkan ke path penyimpanan OSS Bucket untuk menyimpan data sementara dan model yang dihasilkan selama waktu proses. Jika parameter ini tidak diatur, penyimpanan default ruang kerja akan digunakan. Untuk setiap eksekusi, sistem secara otomatis membuat folder temporary di `workflow_storage_path/task_ID/node_ID`. Hal ini menyederhanakan konfigurasi path penyimpanan OSS untuk setiap komponen dalam alur kerja dan memudahkan manajemen data.
Visibility	Visible to Me: Alur kerja dibuat di folder My Pipelines dan hanya terlihat oleh Anda serta administrator di ruang kerja. Visible to Current Workspace: Alur kerja dibuat di folder Pipelines Visible to Workspaces dan terlihat oleh semua anggota ruang kerja.

Langkah 2: Persiapan dan Pra-pemrosesan Data

Sebelum membangun model, Anda harus menyiapkan sumber data dan melakukan pra-pemrosesan data. Langkah ini memastikan bahwa data siap untuk pelatihan model sesuai kebutuhan bisnis Anda.

Siapkan Data

Anda dapat membaca data ke dalam alur kerja dengan menambahkan komponen dari kategori Source/Target, yang mendukung sumber data seperti MaxCompute dan OSS. Untuk informasi lebih lanjut, lihat Referensi Komponen: Source/Target. Topik ini menggunakan komponen Read Data Table untuk membaca dataset publik penyakit jantung yang disediakan oleh PAI. Untuk informasi lebih lanjut tentang dataset tersebut, lihat Heart Disease Data Set.

designer quick start 2

Pilih komponen Source/Target untuk membaca data.
Pada daftar komponen di sebelah kiri, klik Source/Target. Seret komponen Read Table ke Kanvas. Komponen ini membaca data dari tabel MaxCompute. Node bernama Read Table-1 secara otomatis ditambahkan ke alur kerja.
Konfigurasikan nama tabel sumber.
Klik node Read Table-1 di Kanvas. Pada bidang Table Name di panel konfigurasi sebelah kanan, masukkan nama tabel MaxCompute. Untuk contoh ini, masukkan pai_online_project.heart_disease_prediction untuk membaca dataset publik penyakit jantung yang disediakan oleh PAI.
Klik tab Source Table Columns di panel konfigurasi sebelah kanan untuk melihat detail bidang dalam dataset.

Pra-pemrosesan Data

Prediksi penyakit jantung merupakan masalah klasifikasi biner. Komponen model regresi logistik memerlukan data masukan bertipe DOUBLE atau BIGINT. Oleh karena itu, pada bagian ini Anda akan melakukan pra-pemrosesan dataset penyakit jantung dengan tugas seperti konversi tipe agar data siap untuk pelatihan model.

Konversi bidang non-numerik ke tipe numerik.
1. Temukan komponen SQL Script dan seret ke Kanvas. Node bernama SQL Script-1 ditambahkan ke alur kerja.
2. Hubungkan output node Read Table-1 ke port input t1 node SQL Script-1.
3. Konfigurasikan node.
  Klik node SQL Script-1. Di panel konfigurasi sebelah kanan, masukkan kode berikut. Input Source di panel Parameters Setting adalah t1.
```
select age,
(case sex when 'male' then 1 else 0 end) as sex,
(case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
trestbps,
chol,
(case fbs when 'true' then 1 else 0 end) as fbs,
(case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
thalach,
(case exang when 'true' then 1 else 0 end) as exang,
oldpeak,
(case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
ca,
(case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
(case status  when 'sick' then 1 else 0 end) as ifHealth
from  ${t1};
```
4. Di pojok kiri atas Kanvas, klik Save untuk menyimpan alur kerja.
5. Klik kanan komponen SQL Script-1 dan pilih Execute from Root Node to Here untuk men-debug dan menjalankan bagian alur kerja ini.
  Node dalam alur kerja dijalankan secara berurutan. Saat sebuah node berhasil dijalankan, ikon muncul di pojok kanan atasnya.
  Catatan
  Anda juga dapat mengklik ikon (Run) di pojok kiri atas Kanvas untuk menjalankan seluruh alur kerja. Jika alur kerja kompleks, Anda dapat menjalankan node tertentu atau subset node untuk mempermudah debugging. Jika sebuah node gagal dijalankan, Anda dapat mengklik kanan node tersebut dan memilih View Log untuk mengidentifikasi penyebab kegagalan.
6. Setelah node berhasil dijalankan, klik kanan node SQL Script-1 dan pilih untuk memverifikasi bahwa data output benar.
Konversi tipe data bidang menjadi DOUBLE agar memenuhi persyaratan input model regresi logistik.
Seret komponen Type Conversion ke Kanvas dan hubungkan ke output node SQL Script-1. Klik node baru tersebut. Di tab Fields Setting, klik Select Fields untuk Columns to convert to DOUBLE type dan pilih semua bidang.
Normalisasi data untuk mengubah rentang nilai setiap fitur menjadi [0, 1] dan menghilangkan dampak dimensi berbeda terhadap hasil.
Seret komponen Normalization ke Kanvas dan hubungkan ke output node Type Conversion-1. Klik node baru tersebut. Di tab Fields Setting, pilih semua bidang untuk dinormalisasi.
Pisahkan data menjadi set pelatihan dan set prediksi.
Seret komponen Split ke Kanvas dan hubungkan ke output node Normalization-1. Komponen ini menghasilkan dua tabel data.
Secara default, komponen Split membagi data menjadi set pelatihan dan set prediksi dengan rasio 4:1. Anda dapat mengklik node Split-1 dan mengatur split ratio di tab Parameters pada panel sebelah kanan. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Split.
Klik kanan komponen Type Conversion-1, klik Run from Here, lalu jalankan node sisanya dalam alur kerja.

Langkah 3: Pelatihan Model

Prediksi penyakit jantung merupakan masalah klasifikasi biner karena setiap sampel menunjukkan apakah pasien sakit atau sehat. Pada bagian ini, Anda akan menggunakan komponen regresi logistik biner untuk membangun model prediksi penyakit jantung.

designer quick start 3

Seret komponen Binary Logistic Regression dan hubungkan sebagai node turunan dari Output Table 1 node Split-1.
Konfigurasikan node.
Klik node Logistic Regression Binary Classification-1. Di tab Fields Settings sebelah kanan, atur target column menjadi ifhealth dan pilih semua kolom lain sebagai training feature columns. Untuk informasi lebih lanjut tentang parameter tersebut, lihat Logistic Regression Binary Classification.
Catatan
Untuk melakukan Langkah 6: Penerapan Model (Opsional), klik node Logistic Regression Binary Classification-1 dan centang kotak Generate PMML di tab Fields Setting.
Jalankan node.

Langkah 4: Prediksi Model

Seret komponen Prediction dan hubungkan sebagai node turunan dari output table 2 node Split-1 serta dari node Logistic Regression Binary Classification-1.
Klik node Prediction-1. Di tab Fields Setting, atur Original Output Column menjadi ifhealth. Untuk Training Feature Columns, pilih semua kolom kecuali ifhealth.
Jalankan node prediksi dan lihat hasil prediksi.
Setelah node berhasil dijalankan, klik kanan dan pilih View Data > Prediction Result Output untuk melihat data prediksi.

Langkah 5: Evaluasi Model

Seret komponen Binary Classification Evaluation ke Kanvas dan hubungkan ke output node Prediction-1.
Klik node Binary Classification Evaluation-1. Di tab Fields Setting pada panel sebelah kanan, atur Original Label Column Name menjadi ifhealth.
Jalankan node evaluasi dan lihat hasil evaluasi model.
Setelah eksekusi selesai, klik kanan node Binary Classification Evaluation-1 dan pilih Visualization Analysis untuk melihat representasi visual metrik evaluasi.

Langkah 6: Penerapan Model (Opsional)

Machine Learning Designer terintegrasi secara mulus dengan Elastic Algorithm Service (EAS). Setelah menyelesaikan pelatihan offline, prediksi offline, dan evaluasi, Anda dapat menerapkan model ke EAS untuk membuat layanan model online.

Setelah alur kerja berhasil dijalankan, klik Model List di bagian atas Kanvas. Pilih model yang ingin diterapkan lalu klik Deploy to EAS.
Konfirmasi parameter konfigurasi. Untuk informasi lebih lanjut, lihat terapkan model sebagai layanan online.
Di halaman penerapan EAS, Model File dan Processor Type telah dikonfigurasi secara default. Anda dapat mengonfigurasi parameter lain sesuai kebutuhan.
Klik Deploy.
Model berhasil diterapkan ketika Service Status berubah dari Creating menjadi Running.
Penting
Jika Anda tidak lagi memerlukan model online yang diterapkan, klik Stop di kolom Actions untuk menghindari biaya yang tidak perlu.

Referensi

Machine Learning Designer menyediakan serangkaian templat alur kerja lengkap yang dapat Anda gunakan untuk membangun model dengan cepat. Untuk informasi lebih lanjut, lihat Template Workflows.
Anda dapat menggunakan DataWorks untuk melakukan penjadwalan offline alur kerja guna memperbarui model secara berkala. Untuk informasi lebih lanjut, lihat Gunakan DataWorks untuk Melakukan Penjadwalan Offline Alur Kerja Designer.
Anda dapat mengonfigurasi variabel global dalam alur kerja dan menggunakannya dalam layanan online serta penjadwalan offline DataWorks untuk meningkatkan fleksibilitas dan efisiensi alur kerja. Untuk informasi lebih lanjut, lihat Global variables.
Untuk informasi lebih lanjut, lihat Penagihan Machine Learning Designer.
Ikhtisar komponen Designer.