全部产品
Search
文档中心

Platform For AI:Pipeline Kustom

更新时间:Jul 02, 2025

Machine Learning Designer menggunakan pipeline untuk membangun dan men-debug model. Anda perlu membuat sebuah pipeline dan menambahkan berbagai komponen sesuai kebutuhan bisnis Anda. Dalam topik ini, sebuah pipeline kosong dibuat untuk membangun model klasifikasi biner guna memprediksi penyakit jantung.

Prasyarat

Langkah 1: Buat pipeline

Buka Pemodelan Visual (Designer), pilih ruang kerja, dan masuk ke halaman Pemodelan Visual (Designer). Di halaman yang muncul, buat pipeline baru dan buka.

image

Parameter

Deskripsi

Nama Pipeline

Masukkan nama kustom.

Penyimpanan Data

Kami merekomendasikan Anda mengatur parameter ini ke jalur Bucket OSS untuk menyimpan data sementara dan model selama proses berlangsung. Jika tidak ditentukan, penyimpanan default dari ruang kerja akan digunakan.

Sistem secara otomatis membuat folder sementara bernama Data Storage Path/Task ID/Node ID untuk setiap proses sehingga Anda tidak perlu mengonfigurasi jalur OSS untuk semua komponen di pipeline Anda. Ini juga memudahkan pengelolaan data secara terpusat.

Visibilitas

  • Visible to Me: Pipeline dibuat di bawah folder My Pipelines. Hanya Anda dan administrator ruang kerja yang dapat melihat pipeline.

  • Visible to Current Workspace: Pipeline dibuat di bawah folder Pipelines Visible to Workspaces. Semua orang di ruang kerja bisa melihat pipeline.

Langkah 2: Persiapkan dan pra-pemrosesan data

Persiapkan sumber data dan selesaikan pra-pemrosesan data sebelum membangun model. Ini memfasilitasi pelatihan model berdasarkan kebutuhan bisnis Anda.

Persiapkan data

Dalam pipeline yang Anda buat, tambahkan komponen dalam kategori Data Source/Target untuk membaca data dari sumber seperti MaxCompute atau Object Storage Service (OSS). Untuk informasi lebih lanjut, lihat dokumentasi komponen spesifik di bawah Referensi Komponen: Sumber Data atau Tujuan. Topik ini menggunakan komponen Read Table untuk membaca dataset publik terkait kasus penyakit jantung yang disediakan oleh PAI. Untuk informasi lebih lanjut tentang dataset, lihat Dataset Penyakit Jantung.

designer快速入门2

  1. Pilih tabel yang sesuai untuk komponen Read Table dalam kategori Data Source/Target untuk membaca data.

    Di daftar komponen di sebelah kiri, klik Data Source/Target, seret komponen Read Table ke kanvas di sebelah kanan untuk membaca data tabel MaxCompute. Node pipeline bernama Read Table-1 secara otomatis dibuat di kanvas.

  2. Konfigurasikan tabel data sumber pada halaman konfigurasi node.

    Klik node Read Table-1 di kanvas, dan masukkan nama tabel MaxCompute di bidang Table Name di bagian konfigurasi node di sebelah kanan. Dalam topik ini, tabel pai_online_project.heart_disease_prediction digunakan untuk membaca dataset publik terkait kasus penyakit jantung yang disediakan oleh PAI.

  3. Beralihlah ke tab Fields Information di bagian konfigurasi node untuk melihat detail bidang dari dataset publik.

Pra-pemrosesan data

Prediksi penyakit jantung yang dijelaskan dalam topik ini adalah masalah klasifikasi biner. Komponen model regresi logistik memerlukan input data bertipe DOUBLE atau BIGINT. Bagian ini menjelaskan cara melakukan operasi pra-pemrosesan, seperti konversi tipe data, pada dataset terkait kasus penyakit jantung untuk pelatihan model.

  1. Pra-pemrosesan data: Konversikan bidang non-numerik menjadi bidang numerik.

    designer快速入门1

    1. Cari komponen SQL Script dan seret ke kanvas. Node pipeline bernama SQL Script-1 dibuat.

    2. Gambar garis dari node Read Table-1 ke port input t1 dari node SQL Script-1. Dengan cara ini, node Read Table-1 menjadi sumber data dari node SQL Script-1.

    3. Konfigurasikan node SQL Script-1.

      Klik node SQL Script-1, dan masukkan kode berikut di editor skrip SQL di sebelah kanan. Di tab Parameters Setting, t1 ditampilkan di bidang Input Source.

      select age,
      (case sex when 'male' then 1 else 0 end) as sex,
      (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
      trestbps,
      chol,
      (case fbs when 'true' then 1 else 0 end) as fbs,
      (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
      thalach,
      (case exang when 'true' then 1 else 0 end) as exang,
      oldpeak,
      (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
      ca,
      (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
      (case status  when 'sick' then 1 else 0 end) as ifHealth
      from  ${t1};
    4. Klik Save di sudut kiri atas kanvas untuk menyimpan pengaturan pipeline.

    5. Klik kanan komponen SQL Script-1, dan klik Run from Root Node To Here untuk men-debug dan menjalankan pipeline.

      Setiap node dalam pipeline dijalankan secara berurutan. Setelah node dijalankan sesuai harapan, node tersebut ditandai dengan ikon 运行成功 di kotak node yang ditampilkan di pojok kanan atas node.

      Catatan

      Anda juga bisa mengklik ikon 运行 (Jalankan) di sudut kiri kanvas untuk menjalankan seluruh pipeline. Jika pipeline kompleks, kami sarankan Anda menjalankan node tertentu atau beberapa node berdasarkan komponen. Ini memfasilitasi pen-debug-an pipeline. Jika node gagal dijalankan, klik kanan node dan pilih View Log untuk mendiagnosis kegagalan.

    6. Setelah pipeline dijalankan, klik kanan node, seperti SQL Script-1, dan pilih View Data untuk memeriksa apakah data keluaran dari node sudah benar.

  2. Pra-pemrosesan data: Konversikan bidang menjadi tipe data DOUBLE untuk memenuhi persyaratan data input model regresi logistik.

    b4e7bb3e15838f4bfd46dcdec8eb60d6.png

    Seret komponen Data Type Conversion ke kanvas dan hubungkan node SQL Script-1 ke node Data Type Conversion-1 dengan merujuk pada langkah sebelumnya. Dengan cara ini, node Data Type Conversion-1 menjadi node hilir dari node SQL Script-1. Klik node Data Type Conversion-1. Di tab Fields Setting, klik Select Fields di bidang Convert To Double Type Columns, pilih semua bidang, lalu konversikan bidang menjadi tipe data DOUBLE.

  3. Pra-pemrosesan data: Normalisasikan data untuk mengonversi nilai setiap fitur menjadi nilai mulai dari 0 hingga 1. Ini menghilangkan dampak dimensi pada hasil prediksi.

    Seret komponen Normalization ke kanvas dan hubungkan node Data Type Conversion-1 ke node Normalization-1 dengan merujuk pada langkah sebelumnya. Dengan cara ini, node Normalization-1 menjadi node hilir dari node Data Type Conversion-1. Klik node Normalization-1. Di tab Fields Setting, pilih semua bidang.

  4. Pra-pemrosesan data: Pisahkan data menjadi set data pelatihan dan set data prediksi untuk pelatihan model dan prediksi berikutnya.

    Seret komponen Split ke kanvas dan hubungkan node Normalization-1 ke node Split-1. Dengan cara ini, node Split-1 menjadi node hilir dari node Normalization-1. Setelah node Split-1 dijalankan, dua tabel data dihasilkan.

    Secara default, komponen Split membagi data menjadi set pelatihan model dan set prediksi model dengan rasio 4:1. Klik node Split-1. Di tab Parameters Setting di sebelah kanan, tentukan parameter Splitting Fraction. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Split.

  5. Klik kanan node Data Type Conversion-1, dan klik Run from Here untuk menjalankan node dalam pipeline dari node Data Type Conversion-1.

Langkah 3: Latih model

Dalam setiap sampel, setiap pasien sakit atau sehat. Oleh karena itu, prediksi penyakit jantung adalah masalah klasifikasi biner. Bagian ini menjelaskan cara menggunakan komponen regresi logistik untuk klasifikasi biner guna membangun model prediksi penyakit jantung.

designer快速入门3

  1. Seret komponen Logistic Regression for Binary Classification ke kanvas dan hubungkan Tabel Output 1 dari node Split-1 ke node Logistic Regression for Binary Classification-1. Dengan cara ini, node Logistic Regression for Binary Classification-1 menjadi node hilir dari Tabel Output 1 dari node Split-1.

  2. Konfigurasikan node Logistic Regression for Binary Classification-1.

    Klik node Logistic Regression for Binary Classification-1. Di tab Fields Setting di sebelah kanan, pilih bidang ifhealth untuk parameter Target Columns, dan pilih semua bidang kecuali nilai parameter Target Column untuk parameter Training Feature Columns. Untuk informasi lebih lanjut tentang parameter lainnya, lihat Regresi Logistik untuk Klasifikasi Biner.

    Catatan

    Jika Anda perlu menerapkan model dengan mengikuti instruksi di (Opsional) Langkah 6: Terapkan model, klik komponen Logistic Regression for Binary Classification-1. Di tab Fields Setting, pilih Whether To Generate PMML.

  3. Jalankan node Logistic Regression for Binary Classification.

Langkah 4: Gunakan model untuk prediksi

image

  1. Seret komponen Prediction ke kanvas dan hubungkan Tabel Output 2 dari node Split-1 dan node Logistic Regression for Binary Classification-1 ke node Prediction-1. Dengan cara ini, node Prediction-1 menjadi node hilir dari Tabel Output 2 dari node Split-1 dan node Logistic Regression for Binary Classification-1.

  2. Klik node Prediction-1. Di tab Fields Setting, pilih bidang ifhealth untuk parameter Reserved Columns, dan pilih semua bidang kecuali bidang ifhealth untuk parameter Feature Columns.

  3. Jalankan node Prediction-1 dan lihat hasil prediksi.

    Setelah node Prediction-1 dijalankan, klik kanan node Prediction-1, pilih View Data > Prediction Result Output Port, lalu lihat data prediksi.

    image

Langkah 5: Evaluasi model

  1. Seret komponen Binary Classification Evaluation ke kanvas hubungkan node Prediction-1 ke node Binary Classification Evaluation-1. Dengan cara ini, node Binary Classification Evaluation-1 menjadi node hilir dari node Prediction-1.

  2. Klik node Binary Classification Evaluation-1. Di tab Pengaturan Bidang di sebelah kanan, pilih bidang ifhealth untuk parameter Kolom Label Asli .

  3. Jalankan node Binary Classification Evaluation-1 dan lihat hasil evaluasi model.

    Setelah node Binary Classification Evaluation-1 dijalankan, klik kanan node Binary Classification Evaluation-1, pilih Analisis Visual, lalu lihat metrik evaluasi yang berbeda secara visual.

    模型评估

(Opsional) Langkah 6: Terapkan model

Machine Learning Designer dapat berintegrasi dengan Elastic Algorithm Service (EAS). Setelah Anda melatih model secara offline, menyelesaikan prediksi model, dan mengevaluasi model, Anda dapat menerapkan model ke EAS sebagai layanan model online.

  1. Setelah pipeline dijalankan, klik Models di sudut kiri atas kanvas. Di kotak dialog Models, pilih model yang diinginkan dan klik Deploy in EAS.

    image

  2. Konfirmasikan konfigurasi parameter. Untuk informasi lebih lanjut, lihat Terapkan model sebagai layanan online.

    Di halaman Buat Layanan, parameter Model File dan Processor Type dikonfigurasi secara otomatis. Anda perlu mengonfigurasi parameter lainnya berdasarkan kebutuhan bisnis Anda.

  3. Klik Deploy.

    Ketika nilai parameter Service Status berubah dari Creating menjadi Running, model diterapkan.

    Penting

    Jika Anda tidak lagi menggunakan layanan model yang diterapkan, klik Stop di kolom Actions dari layanan model. Ini dapat mencegah biaya yang tidak perlu.

Referensi