Machine Learning Designer menggunakan pipeline untuk membangun dan men-debug model. Anda perlu membuat sebuah pipeline dan menambahkan berbagai komponen sesuai kebutuhan bisnis Anda. Dalam topik ini, sebuah pipeline kosong dibuat untuk membangun model klasifikasi biner guna memprediksi penyakit jantung.
Prasyarat
Langkah 1: Buat pipeline
Buka Pemodelan Visual (Designer), pilih ruang kerja, dan masuk ke halaman Pemodelan Visual (Designer). Di halaman yang muncul, buat pipeline baru dan buka.

Parameter | Deskripsi |
Nama Pipeline | Masukkan nama kustom. |
Penyimpanan Data | Kami merekomendasikan Anda mengatur parameter ini ke jalur Bucket OSS untuk menyimpan data sementara dan model selama proses berlangsung. Jika tidak ditentukan, penyimpanan default dari ruang kerja akan digunakan. Sistem secara otomatis membuat folder sementara bernama |
Visibilitas |
|
Langkah 2: Persiapkan dan pra-pemrosesan data
Persiapkan sumber data dan selesaikan pra-pemrosesan data sebelum membangun model. Ini memfasilitasi pelatihan model berdasarkan kebutuhan bisnis Anda.
Persiapkan data
Dalam pipeline yang Anda buat, tambahkan komponen dalam kategori Data Source/Target untuk membaca data dari sumber seperti MaxCompute atau Object Storage Service (OSS). Untuk informasi lebih lanjut, lihat dokumentasi komponen spesifik di bawah Referensi Komponen: Sumber Data atau Tujuan. Topik ini menggunakan komponen Read Table untuk membaca dataset publik terkait kasus penyakit jantung yang disediakan oleh PAI. Untuk informasi lebih lanjut tentang dataset, lihat Dataset Penyakit Jantung.

Pilih tabel yang sesuai untuk komponen Read Table dalam kategori Data Source/Target untuk membaca data.
Di daftar komponen di sebelah kiri, klik Data Source/Target, seret komponen Read Table ke kanvas di sebelah kanan untuk membaca data tabel MaxCompute. Node pipeline bernama Read Table-1 secara otomatis dibuat di kanvas.
Konfigurasikan tabel data sumber pada halaman konfigurasi node.
Klik node Read Table-1 di kanvas, dan masukkan nama tabel MaxCompute di bidang Table Name di bagian konfigurasi node di sebelah kanan. Dalam topik ini, tabel
pai_online_project.heart_disease_predictiondigunakan untuk membaca dataset publik terkait kasus penyakit jantung yang disediakan oleh PAI.Beralihlah ke tab Fields Information di bagian konfigurasi node untuk melihat detail bidang dari dataset publik.
Pra-pemrosesan data
Prediksi penyakit jantung yang dijelaskan dalam topik ini adalah masalah klasifikasi biner. Komponen model regresi logistik memerlukan input data bertipe DOUBLE atau BIGINT. Bagian ini menjelaskan cara melakukan operasi pra-pemrosesan, seperti konversi tipe data, pada dataset terkait kasus penyakit jantung untuk pelatihan model.
Pra-pemrosesan data: Konversikan bidang non-numerik menjadi bidang numerik.

Cari komponen SQL Script dan seret ke kanvas. Node pipeline bernama SQL Script-1 dibuat.
Gambar garis dari node Read Table-1 ke port input t1 dari node SQL Script-1. Dengan cara ini, node Read Table-1 menjadi sumber data dari node SQL Script-1.
Konfigurasikan node SQL Script-1.
Klik node SQL Script-1, dan masukkan kode berikut di editor skrip SQL di sebelah kanan. Di tab Parameters Setting, t1 ditampilkan di bidang Input Source.
select age, (case sex when 'male' then 1 else 0 end) as sex, (case cp when 'angina' then 0 when 'notang' then 1 else 2 end) as cp, trestbps, chol, (case fbs when 'true' then 1 else 0 end) as fbs, (case restecg when 'norm' then 0 when 'abn' then 1 else 2 end) as restecg, thalach, (case exang when 'true' then 1 else 0 end) as exang, oldpeak, (case slop when 'up' then 0 when 'flat' then 1 else 2 end) as slop, ca, (case thal when 'norm' then 0 when 'fix' then 1 else 2 end) as thal, (case status when 'sick' then 1 else 0 end) as ifHealth from ${t1};Klik Save di sudut kiri atas kanvas untuk menyimpan pengaturan pipeline.
Klik kanan komponen SQL Script-1, dan klik Run from Root Node To Here untuk men-debug dan menjalankan pipeline.
Setiap node dalam pipeline dijalankan secara berurutan. Setelah node dijalankan sesuai harapan, node tersebut ditandai dengan ikon
di kotak node yang ditampilkan di pojok kanan atas node.CatatanAnda juga bisa mengklik ikon
(Jalankan) di sudut kiri kanvas untuk menjalankan seluruh pipeline. Jika pipeline kompleks, kami sarankan Anda menjalankan node tertentu atau beberapa node berdasarkan komponen. Ini memfasilitasi pen-debug-an pipeline. Jika node gagal dijalankan, klik kanan node dan pilih View Log untuk mendiagnosis kegagalan.Setelah pipeline dijalankan, klik kanan node, seperti SQL Script-1, dan pilih untuk memeriksa apakah data keluaran dari node sudah benar.
Pra-pemrosesan data: Konversikan bidang menjadi tipe data DOUBLE untuk memenuhi persyaratan data input model regresi logistik.

Seret komponen Data Type Conversion ke kanvas dan hubungkan node SQL Script-1 ke node Data Type Conversion-1 dengan merujuk pada langkah sebelumnya. Dengan cara ini, node Data Type Conversion-1 menjadi node hilir dari node SQL Script-1. Klik node Data Type Conversion-1. Di tab Fields Setting, klik Select Fields di bidang Convert To Double Type Columns, pilih semua bidang, lalu konversikan bidang menjadi tipe data DOUBLE.
Pra-pemrosesan data: Normalisasikan data untuk mengonversi nilai setiap fitur menjadi nilai mulai dari 0 hingga 1. Ini menghilangkan dampak dimensi pada hasil prediksi.
Seret komponen Normalization ke kanvas dan hubungkan node Data Type Conversion-1 ke node Normalization-1 dengan merujuk pada langkah sebelumnya. Dengan cara ini, node Normalization-1 menjadi node hilir dari node Data Type Conversion-1. Klik node Normalization-1. Di tab Fields Setting, pilih semua bidang.
Pra-pemrosesan data: Pisahkan data menjadi set data pelatihan dan set data prediksi untuk pelatihan model dan prediksi berikutnya.
Seret komponen Split ke kanvas dan hubungkan node Normalization-1 ke node Split-1. Dengan cara ini, node Split-1 menjadi node hilir dari node Normalization-1. Setelah node Split-1 dijalankan, dua tabel data dihasilkan.
Secara default, komponen Split membagi data menjadi set pelatihan model dan set prediksi model dengan rasio 4:1. Klik node Split-1. Di tab Parameters Setting di sebelah kanan, tentukan parameter Splitting Fraction. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Split.
Klik kanan node Data Type Conversion-1, dan klik Run from Here untuk menjalankan node dalam pipeline dari node Data Type Conversion-1.
Langkah 3: Latih model
Dalam setiap sampel, setiap pasien sakit atau sehat. Oleh karena itu, prediksi penyakit jantung adalah masalah klasifikasi biner. Bagian ini menjelaskan cara menggunakan komponen regresi logistik untuk klasifikasi biner guna membangun model prediksi penyakit jantung.

Seret komponen Logistic Regression for Binary Classification ke kanvas dan hubungkan Tabel Output 1 dari node Split-1 ke node Logistic Regression for Binary Classification-1. Dengan cara ini, node Logistic Regression for Binary Classification-1 menjadi node hilir dari Tabel Output 1 dari node Split-1.
Konfigurasikan node Logistic Regression for Binary Classification-1.
Klik node Logistic Regression for Binary Classification-1. Di tab Fields Setting di sebelah kanan, pilih bidang ifhealth untuk parameter Target Columns, dan pilih semua bidang kecuali nilai parameter Target Column untuk parameter Training Feature Columns. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Regresi Logistik untuk Klasifikasi Biner.
CatatanJika Anda perlu menerapkan model dengan mengikuti instruksi di (Opsional) Langkah 6: Terapkan model, klik komponen Logistic Regression for Binary Classification-1. Di tab Fields Setting, pilih Whether To Generate PMML.
Jalankan node Logistic Regression for Binary Classification.
Langkah 4: Gunakan model untuk prediksi

Jalankan node Prediction-1 dan lihat hasil prediksi.
Setelah node Prediction-1 dijalankan, klik kanan node Prediction-1, pilih , lalu lihat data prediksi.

Langkah 5: Evaluasi model
Seret komponen Binary Classification Evaluation ke kanvas hubungkan node Prediction-1 ke node Binary Classification Evaluation-1. Dengan cara ini, node Binary Classification Evaluation-1 menjadi node hilir dari node Prediction-1.
Klik node Binary Classification Evaluation-1. Di tab Pengaturan Bidang di sebelah kanan, pilih bidang ifhealth untuk parameter Kolom Label Asli .
(Opsional) Langkah 6: Terapkan model
Machine Learning Designer dapat berintegrasi dengan Elastic Algorithm Service (EAS). Setelah Anda melatih model secara offline, menyelesaikan prediksi model, dan mengevaluasi model, Anda dapat menerapkan model ke EAS sebagai layanan model online.
Setelah pipeline dijalankan, klik Models di sudut kiri atas kanvas. Di kotak dialog Models, pilih model yang diinginkan dan klik Deploy in EAS.

Konfirmasikan konfigurasi parameter. Untuk informasi lebih lanjut, lihat Terapkan model sebagai layanan online.
Di halaman Buat Layanan, parameter Model File dan Processor Type dikonfigurasi secara otomatis. Anda perlu mengonfigurasi parameter lainnya berdasarkan kebutuhan bisnis Anda.
Klik Deploy.
Ketika nilai parameter Service Status berubah dari Creating menjadi Running, model diterapkan.
PentingJika Anda tidak lagi menggunakan layanan model yang diterapkan, klik Stop di kolom Actions dari layanan model. Ini dapat mencegah biaya yang tidak perlu.
Referensi
Machine Learning Designer menyediakan berbagai template yang dapat digunakan untuk membangun model. Untuk informasi lebih lanjut, lihat Demo untuk membuat pipeline menggunakan template.
Pipeline dapat dijadwalkan di Machine Learning Designer menggunakan tugas DataWorks. Untuk informasi lebih lanjut, lihat Gunakan tugas DataWorks untuk menjadwalkan pipeline di Machine Learning Designer.
Anda dapat mengonfigurasi variabel global di pipeline. Fitur ini membantu Anda mengelola pipeline online dan menggunakan tugas DataWorks untuk menjadwalkan pipeline, sehingga meningkatkan fleksibilitas dan efisiensi pipeline. Untuk informasi lebih lanjut, lihat Variabel Global.
