Buat model prediksi penyakit jantung di Designer dengan menggunakan template preset - Platform For AI - Alibaba Cloud - Platform For AI

Penyakit jantung merupakan ancaman serius terhadap kesehatan manusia. Dengan menganalisis korelasi antara fitur-fitur dalam data tes fisik dan penyakit jantung, Anda dapat membangun model untuk membantu memprediksi dan mencegahnya.

Prasyarat

Anda telah membuat ruang kerja. Untuk informasi selengkapnya, lihat Create and manage workspaces.
Anda telah mengaitkan sumber daya MaxCompute dengan ruang kerja Anda. Untuk informasi selengkapnya, lihat Create and manage workspaces.

Prosedur penambangan data

Prediksi penyakit jantung

Buka halaman Machine Learning Designer.
1. Masuk ke PAI console.
2. Di panel navigasi sebelah kiri, klik Workspaces. Pada halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.
3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

Bangun pipeline.

Pada halaman Designer, klik tab Preset Templates.
Di bagian Heart Disease Prediction pada daftar templat, klik Create.
Pada kotak dialog Create Pipeline, konfigurasikan parameter. Anda dapat menggunakan pengaturan default.
Parameter Data Storage menentukan path Bucket OSS untuk menyimpan data temporary dan model yang dihasilkan selama eksekusi pipeline.
Klik Confirm.
Pipeline dibuat dalam waktu sekitar 10 detik.
Di daftar pipeline, temukan pipeline Heart Disease Prediction dan klik Open.

Designer secara otomatis membangun pipeline berdasarkan template preset, seperti yang ditunjukkan pada gambar berikut.

心脏病预测实验

Area	Deskripsi
①	Pra-pemrosesan data melibatkan penghilangan derau, pengisian nilai yang hilang, dan transformasi tipe data. Karena setiap pasien termasuk dalam kategori sehat atau menderita penyakit jantung, prediksi penyakit jantung merupakan masalah klasifikasi. Data masukan pipeline ini mencakup 14 kolom fitur dan satu kolom target. Untuk informasi lebih lanjut tentang bidang-bidang tersebut, lihat Lampiran: Set data penyakit jantung. Selama pra-pemrosesan data, bidang bertipe string dikonversi ke tipe numerik berdasarkan maknanya: Data biner: Untuk bidang biner seperti sex, yang memiliki nilai female atau male, Anda dapat memetakan 0 ke female dan 1 ke male. Data multi-nilai: Untuk bidang seperti cp (jenis nyeri dada), Anda dapat memetakan jenis-jenis tersebut ke nilai numerik yang berbeda. Kode berikut merupakan contoh skrip SQL untuk pra-pemrosesan data. select age, (case sex when 'male' then 1 else 0 end) as sex, (case cp when 'angina' then 0 when 'notang' then 1 else 2 end) as cp, trestbps, chol, (case fbs when 'true' then 1 else 0 end) as fbs, (case restecg when 'norm' then 0 when 'abn' then 1 else 2 end) as restecg, thalach, (case exang when 'true' then 1 else 0 end) as exang, oldpeak, (case slop when 'up' then 0 when 'flat' then 1 else 2 end) as slop, ca, (case thal when 'norm' then 0 when 'fix' then 1 else 2 end) as thal, (case status when 'sick' then 1 else 0 end) as ifHealth from ${t1};
②	Rekayasa fitur mencakup penurunan fitur baru dan penskalaan fitur yang ada. Pipeline ini pertama-tama menggunakan komponen Type Conversion untuk mengonversi fitur input ke tipe DOUBLE, sesuai persyaratan model regresi logistik. Kemudian, komponen Feature Select Runner mengevaluasi dampak setiap fitur terhadap hasil, menggunakan entropi informasi dan koefisien Gini. Selain itu, komponen Normalize menskala rentang numerik setiap fitur ke [0, 1] untuk menghilangkan pengaruh satuan pengukuran yang berbeda. Rumus yang digunakan adalah `result=(val-min)/(max-min)`.
③	Pelatihan dan prediksi model: Komponen Split membagi set data menjadi set pelatihan dan set prediksi dengan rasio 7:3. Komponen Binary Logistic Regression melatih model. Catatan Jika Anda perlu mengekspor model sebagai file PMML, centang kotak Generate PMML pada tab Field Settings komponen ini. Lalu, klik area kosong pada canvas dan konfigurasikan path penyimpanan data pipeline pada tab Pipeline Attributes. Komponen Predicted menggunakan model dan set prediksi sebagai input untuk menghasilkan hasil.
④	Komponen Confusion Matrix dan Evaluate mengevaluasi model.

Jalankan pipeline dan lihat output.
1. Klik di bagian atas canvas.
2. Setelah pipeline selesai dijalankan, klik kanan komponen Binary Logistic Regression pada canvas dan pilih Model Options > Export to PMML Files untuk mengekspor model yang telah dilatih.
3. Klik kanan komponen Predicted pada canvas dan pilih View Data > Output for Prediction untuk melihat hasil prediksi.
Lihat performa model.
1. Klik kanan komponen Evaluate pada canvas dan klik Visual Analysis.
2. Pada kotak dialog Evaluate, klik tab Indicator Data untuk melihat metrik evaluasi.
  Nilai AUC di atas 0,9 menunjukkan performa prediksi yang sangat baik.
3. Klik kanan komponen Confusion Matrix pada canvas dan klik Visual Analysis.
4. Pada kotak dialog Confusion Matrix, klik tab Summary untuk melihat statistik, seperti akurasi model.

Lampiran: Set data penyakit jantung

Pipeline ini menggunakan set data open-source dari UCI yang berisi data tes fisik dari 303 pasien di sebuah fasilitas di Amerika Serikat. Bidang-bidang tersebut dijelaskan di bawah ini.

Nama bidang	Tipe	Deskripsi
age	STRING	Usia pasien.
sex	STRING	Jenis kelamin pasien. Nilai yang valid: female atau male.
cp	STRING	Jenis nyeri dada, diurutkan dari yang paling menyakitkan hingga paling tidak menyakitkan, yaitu typical, atypical, non-anginal, dan asymptomatic.
trestbps	STRING	Tekanan darah saat istirahat.
chol	STRING	Kolesterol serum.
fbs	STRING	Gula darah puasa. Jika kadar gula darah lebih besar dari 120 mg/dl, nilainya adalah true; jika tidak, nilainya adalah false.
restecg	STRING	Hasil elektrokardiografi saat istirahat. Skrip pra-pemrosesan menggunakan nilai seperti norm (normal) dan abn (abnormal).
thalach	STRING	Detak jantung maksimum yang dicapai.
exang	STRING	Angina yang dipicu oleh olahraga. true menunjukkan adanya angina; false menunjukkan tidak ada.
oldpeak	STRING	Depresi segmen ST yang disebabkan oleh olahraga relatif terhadap kondisi istirahat.
slop	STRING	Kemiringan segmen ST pada elektrokardiogram (ECG), yang dapat berupa down, flat, atau up.
ca	STRING	Jumlah pembuluh utama yang terwarnai oleh fluoroskopi.
thal	STRING	Jenis gangguan, diurutkan dari tingkat keparahan paling ringan hingga paling berat, yaitu norm, fix, dan rev.
status	STRING	Menunjukkan apakah subjek sakit. buff menunjukkan sehat dan sick menunjukkan sakit.

Catatan

Set data ini sudah tertanam dalam pipeline yang dibuat dari templat. Untuk mengunduh set data atau mempelajari lebih lanjut tentangnya, lihat Heart Disease Data Set.

Langkah selanjutnya

Jika hasil pipeline memenuhi ekspektasi Anda, Anda dapat menerapkan model sebagai layanan online untuk inferensi real-time. Untuk informasi lebih lanjut tentang penerapan, lihat Deploy a model as an online service dan PMML-based model deployment.