Buat model prediksi kabut asap menggunakan data cuaca Beijing selama satu tahun untuk mengidentifikasi polutan yang paling berdampak terhadap kadar PM 2.5.
Dataset
Eksperimen ini menggunakan data kualitas udara per jam dari Beijing pada tahun 2016. Deskripsi field ditampilkan dalam tabel berikut.
|
Field name |
Type |
Description |
|
time |
STRING |
Tanggal, akurat hingga hari. |
|
hour |
STRING |
Jam pengumpulan data. |
|
pm2 |
STRING |
Indeks PM 2.5. |
|
pm10 |
STRING |
Indeks PM 10. |
|
so2 |
STRING |
Indeks sulfur dioksida. |
|
co |
STRING |
Indeks karbon monoksida. |
|
no2 |
STRING |
Indeks nitrogen dioksida. |
Prediksi Kabut Asap
-
Buka halaman Machine Learning Designer.
-
Masuk ke PAI console.
-
Di panel navigasi sebelah kiri, klik Workspaces. Pada halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.
-
Di panel navigasi sebelah kiri, pilih .
-
-
Bangun alur kerja.
Pada halaman Designer, klik tab Preset Template.
-
Di bagian Haze Prediction dalam daftar templat, klik Create.
Pada kotak dialog New Workflow, konfigurasikan parameter. Anda dapat menggunakan nilai default.
Workflow Data Storage diatur ke path Bucket OSS untuk menyimpan data sementara dan model yang dihasilkan saat alur kerja berjalan.
Klik OK.
Alur kerja dibuat dalam waktu sekitar 10 detik.
-
Di daftar alur kerja, klik ganda alur kerja Haze Prediction.
-
Alur kerja dibangun secara otomatis berdasarkan template preset, seperti yang ditunjukkan pada gambar berikut.

Area
Description
①
Impor dan preprocessing data:
-
Komponen Read Table mengimpor sumber data.
-
Komponen Type Transform mengonversi data dari tipe STRING ke tipe DOUBLE.
-
Komponen SQL Script mengonversi kolom target menjadi tipe biner (0 dan 1). Dalam eksperimen ini, kolom pm2 merupakan kolom target. Nilai yang lebih besar dari 200 menunjukkan kabut asap parah dan diberi nilai 1; selain itu 0. Pernyataan SQL:
select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1}; -
Komponen Normalization menyatukan satuan berbagai indikator polutan, menghilangkan perbedaan dimensi.
②
Analisis statistik:
-
Komponen Histogram memvisualisasikan distribusi setiap polutan.
Untuk PM2.5, rentang nilai paling sering muncul adalah 11,74 hingga 15,61, dengan 430 kemunculan, seperti yang ditunjukkan pada gambar berikut.

-
Komponen Data View memvisualisasikan dampak interval polutan berbeda terhadap hasil.
Untuk no2, interval 112,33 hingga 113,9 menghasilkan 7 target bernilai 0 dan 9 target bernilai 1, seperti yang ditunjukkan pada gambar berikut. Ketika nilai no2 berada dalam rentang 112,33 hingga 113,9, probabilitas terjadinya kabut asap parah tinggi. Entropi dan Gini mengukur dampak interval fitur ini terhadap nilai target dalam istilah teori informasi. Nilai yang lebih besar menunjukkan dampak yang lebih besar.

③
Pelatihan dan prediksi model. Eksperimen ini menggunakan komponen Random Forest dan Binary Logistic Regression untuk melatih model.
④
Evaluasi model.
-
-
Jalankan alur kerja dan lihat performa model.
-
Klik tombol Run
di atas kanvas. -
Setelah alur kerja selesai, klik kanan komponen Binary Classification Evaluation yang berada di hilir komponen Random Forest pada kanvas. Pilih Visual Analytics dari menu pintasan.
-
Klik tab Evaluation Chart pada kotak dialog Binary Classification Evaluation untuk melihat performa prediksi model yang dilatih oleh komponen Random Forest.
Nilai Area Under the Curve (AUC) menunjukkan akurasi lebih dari 99% untuk model prediksi kabut asap yang dilatih oleh komponen Random Forest. -
Pada kanvas, klik kanan komponen Binary Classification Evaluation yang berada di hilir komponen Binary Logistic Regression. Pilih Visual Analytics dari menu pintasan.
-
Pada kotak dialog Binary Classification Evaluation, klik tab Evaluation Chart untuk melihat performa prediksi model yang dilatih oleh komponen Binary Logistic Regression.
Nilai AUC menunjukkan model prediksi cuaca berkabut yang dilatih oleh komponen Logistic Regression memiliki akurasi lebih dari 98%.
-