All Products
Search
Document Center

Platform For AI:Prediksi penyakit jantung

Last Updated:Jun 26, 2026

Penyakit jantung merupakan ancaman serius terhadap kesehatan manusia. Dengan menganalisis korelasi antara fitur-fitur dalam data tes fisik dan penyakit jantung, Anda dapat membangun model untuk membantu memprediksi dan mencegahnya.

Prasyarat

Prosedur penambangan data

Prediksi penyakit jantung

  1. Buka halaman Machine Learning Designer.

    1. Masuk ke PAI console.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Pada halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.

    3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

  2. Bangun pipeline.

    1. Pada halaman Designer, klik tab Preset Templates.

    2. Di bagian Heart Disease Prediction pada daftar templat, klik Create.

    3. Pada kotak dialog Create Pipeline, konfigurasikan parameter. Anda dapat menggunakan pengaturan default.

      Parameter Data Storage menentukan path Bucket OSS untuk menyimpan data temporary dan model yang dihasilkan selama eksekusi pipeline.

    4. Klik Confirm.

      Pipeline dibuat dalam waktu sekitar 10 detik.

    5. Di daftar pipeline, temukan pipeline Heart Disease Prediction dan klik Open.

    6. Designer secara otomatis membangun pipeline berdasarkan template preset, seperti yang ditunjukkan pada gambar berikut.

      心脏病预测实验

      Area

      Deskripsi

      Pra-pemrosesan data melibatkan penghilangan derau, pengisian nilai yang hilang, dan transformasi tipe data. Karena setiap pasien termasuk dalam kategori sehat atau menderita penyakit jantung, prediksi penyakit jantung merupakan masalah klasifikasi. Data masukan pipeline ini mencakup 14 kolom fitur dan satu kolom target. Untuk informasi lebih lanjut tentang bidang-bidang tersebut, lihat Lampiran: Set data penyakit jantung. Selama pra-pemrosesan data, bidang bertipe string dikonversi ke tipe numerik berdasarkan maknanya:

      • Data biner: Untuk bidang biner seperti sex, yang memiliki nilai female atau male, Anda dapat memetakan 0 ke female dan 1 ke male.

      • Data multi-nilai: Untuk bidang seperti cp (jenis nyeri dada), Anda dapat memetakan jenis-jenis tersebut ke nilai numerik yang berbeda.

      Kode berikut merupakan contoh skrip SQL untuk pra-pemrosesan data.

      select age,
      (case sex when 'male' then 1 else 0 end) as sex,
      (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
      trestbps,
      chol,
      (case fbs when 'true' then 1 else 0 end) as fbs,
      (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
      thalach,
      (case exang when 'true' then 1 else 0 end) as exang,
      oldpeak,
      (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
      ca,
      (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
      (case status  when 'sick' then 1 else 0 end) as ifHealth
      from  ${t1};

      Rekayasa fitur mencakup penurunan fitur baru dan penskalaan fitur yang ada. Pipeline ini pertama-tama menggunakan komponen Type Conversion untuk mengonversi fitur input ke tipe DOUBLE, sesuai persyaratan model regresi logistik. Kemudian, komponen Feature Select Runner mengevaluasi dampak setiap fitur terhadap hasil, menggunakan entropi informasi dan koefisien Gini. Selain itu, komponen Normalize menskala rentang numerik setiap fitur ke [0, 1] untuk menghilangkan pengaruh satuan pengukuran yang berbeda. Rumus yang digunakan adalah result=(val-min)/(max-min).

      Pelatihan dan prediksi model:

      1. Komponen Split membagi set data menjadi set pelatihan dan set prediksi dengan rasio 7:3.

      2. Komponen Binary Logistic Regression melatih model.

        Catatan

        Jika Anda perlu mengekspor model sebagai file PMML, centang kotak Generate PMML pada tab Field Settings komponen ini. Lalu, klik area kosong pada canvas dan konfigurasikan path penyimpanan data pipeline pada tab Pipeline Attributes.

      3. Komponen Predicted menggunakan model dan set prediksi sebagai input untuk menghasilkan hasil.

      Komponen Confusion Matrix dan Evaluate mengevaluasi model.

  3. Jalankan pipeline dan lihat output.

    1. Klik image di bagian atas canvas.

    2. Setelah pipeline selesai dijalankan, klik kanan komponen Binary Logistic Regression pada canvas dan pilih Model Options > Export to PMML Files untuk mengekspor model yang telah dilatih.

    3. Klik kanan komponen Predicted pada canvas dan pilih View Data > Output for Prediction untuk melihat hasil prediksi.

  4. Lihat performa model.

    1. Klik kanan komponen Evaluate pada canvas dan klik Visual Analysis.

    2. Pada kotak dialog Evaluate, klik tab Indicator Data untuk melihat metrik evaluasi.

      指标数据Nilai AUC di atas 0,9 menunjukkan performa prediksi yang sangat baik.

    3. Klik kanan komponen Confusion Matrix pada canvas dan klik Visual Analysis.

    4. Pada kotak dialog Confusion Matrix, klik tab Summary untuk melihat statistik, seperti akurasi model.

Lampiran: Set data penyakit jantung

Pipeline ini menggunakan set data open-source dari UCI yang berisi data tes fisik dari 303 pasien di sebuah fasilitas di Amerika Serikat. Bidang-bidang tersebut dijelaskan di bawah ini.

Nama bidang

Tipe

Deskripsi

age

STRING

Usia pasien.

sex

STRING

Jenis kelamin pasien. Nilai yang valid: female atau male.

cp

STRING

Jenis nyeri dada, diurutkan dari yang paling menyakitkan hingga paling tidak menyakitkan, yaitu typical, atypical, non-anginal, dan asymptomatic.

trestbps

STRING

Tekanan darah saat istirahat.

chol

STRING

Kolesterol serum.

fbs

STRING

Gula darah puasa. Jika kadar gula darah lebih besar dari 120 mg/dl, nilainya adalah true; jika tidak, nilainya adalah false.

restecg

STRING

Hasil elektrokardiografi saat istirahat. Skrip pra-pemrosesan menggunakan nilai seperti norm (normal) dan abn (abnormal).

thalach

STRING

Detak jantung maksimum yang dicapai.

exang

STRING

Angina yang dipicu oleh olahraga. true menunjukkan adanya angina; false menunjukkan tidak ada.

oldpeak

STRING

Depresi segmen ST yang disebabkan oleh olahraga relatif terhadap kondisi istirahat.

slop

STRING

Kemiringan segmen ST pada elektrokardiogram (ECG), yang dapat berupa down, flat, atau up.

ca

STRING

Jumlah pembuluh utama yang terwarnai oleh fluoroskopi.

thal

STRING

Jenis gangguan, diurutkan dari tingkat keparahan paling ringan hingga paling berat, yaitu norm, fix, dan rev.

status

STRING

Menunjukkan apakah subjek sakit. buff menunjukkan sehat dan sick menunjukkan sakit.

Catatan

Set data ini sudah tertanam dalam pipeline yang dibuat dari templat. Untuk mengunduh set data atau mempelajari lebih lanjut tentangnya, lihat Heart Disease Data Set.

Langkah selanjutnya

Jika hasil pipeline memenuhi ekspektasi Anda, Anda dapat menerapkan model sebagai layanan online untuk inferensi real-time. Untuk informasi lebih lanjut tentang penerapan, lihat Deploy a model as an online service dan PMML-based model deployment.