Topik ini menjelaskan cara membangun model untuk memprediksi cuaca berkabut berdasarkan analisis data yang dikumpulkan di Beijing selama satu tahun. Model ini dapat digunakan untuk mengidentifikasi polutan yang paling mungkin menyebabkan cuaca berkabut, dengan pengukuran berdasarkan konsentrasi PM 2.5.
Dataset
Dalam eksperimen sampel berikut, data kualitas udara yang dikumpulkan setiap jam di Beijing selama tahun 2016 digunakan. Tabel berikut menggambarkan bidang-bidang dari data kualitas udara tersebut.
Bidang | Tipe data | Deskripsi |
waktu | STRING | Tanggal. Bidang ini akurat hingga hari. |
jam | STRING | Jam saat data dikumpulkan. |
pm2 | STRING | Indeks PM 2.5. |
pm10 | STRING | Indeks PM 10. |
so2 | STRING | Indeks sulfur dioksida. |
co | STRING | Indeks karbon monoksida. |
no2 | STRING | Indeks nitrogen dioksida. |
Membangun model untuk memprediksi cuaca berkabut
Buka halaman Machine Learning Designer.
Masuk ke Konsol PAI.
Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama workspace yang ingin Anda kelola.
Di panel navigasi sebelah kiri, pilih .
Buat pipeline.
Di halaman Visualized Modeling (Designer), klik tab Preset Templates.
Di bagian Air Quality Prediction pada tab Preset Templates, klik Create.
Di kotak dialog Create Pipeline, konfigurasikan parameter. Anda dapat menggunakan nilai default yang disediakan.
Nilai yang ditentukan untuk parameter Pipeline Data Path adalah jalur bucket Object Storage Service (OSS) untuk data sementara dan model yang dihasilkan selama waktu proses pipeline.
Klik OK.
Pipeline akan dibuat dalam waktu sekitar 10 detik.
Di tab Pipelines, klik dua kali template Air Quality Prediction yang telah dibuat untuk membukanya.
Lihat komponen-komponen pipeline di kanvas seperti yang ditunjukkan pada gambar berikut. Sistem secara otomatis membuat pipeline berdasarkan template preset.

Bagian
Deskripsi
①
Komponen yang ditampilkan di bagian ini membaca dan memproses data.
Komponen data source membaca data sumber.
Komponen type transform mengonversi data sumber dalam tipe STRING menjadi tipe DOUBLE.
Komponen sql mengonversi nilai-nilai di kolom label menjadi nilai biner 0 atau 1. Dalam pipeline ini, kolom pm2 adalah kolom label. Pada kolom pm2, nilai lebih besar dari 200 menunjukkan cuaca berkabut parah. Komponen sql menandai nilai lebih besar dari 200 di kolom pm2 sebagai 1 dan nilai yang lebih kecil atau sama dengan 200 sebagai 0. Contoh pernyataan SQL berikut memberikan ilustrasi:
select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};Komponen normalize mengonversi konsentrasi polutan dengan unit berbeda menjadi nilai normalisasi tanpa unit.
②
Komponen yang ditampilkan di bagian ini melakukan analisis statistik.
Komponen histograms memvisualisasikan distribusi setiap polutan.
Sebagai contoh, gambar berikut menunjukkan bahwa interval tempat sebagian besar konsentrasi PM 2.5 jatuh adalah 11.74 hingga 15.61. Jumlah total konsentrasi PM 2.5 dalam interval ini adalah 430.

Komponen data view memvisualisasikan dampak interval berbeda dari setiap polutan terhadap hasil.
Sebagai contoh, gambar berikut menunjukkan data konsentrasi nitrogen dioxide. Ketika konsentrasi nitrogen dioksida jatuh dalam interval 112.33 hingga 113.9, tujuh nilai kolom label diubah menjadi 0 dan sembilan diubah menjadi 1. Ini menunjukkan bahwa ketika konsentrasi nitrogen dioxide jatuh dalam interval 112.33 hingga 113.9, probabilitas kejadian cuaca berkabut parah tinggi. Entropi dan Gini menunjukkan dampak interval fitur terhadap nilai target dalam hal jumlah informasi. Semakin besar, semakin besar dampaknya.

③
Komponen yang ditampilkan di bagian ini melatih model dan membuat prediksi. Dalam pipeline ini, komponen random forests dan logistic regression melatih model.
④
Komponen yang ditampilkan di bagian ini mengevaluasi model.
Jalankan pipeline dan tinjau hasilnya.
Di pojok kiri atas kanvas, klik ikon Run.
Setelah pipeline dijalankan, klik kanan komponen evaluate yang terhubung sebagai komponen downstream dari komponen random forests. Di menu pintasan yang muncul, klik Visual Analysis.
Di bagian evaluate, klik tab Evaluation Chart untuk melihat hasil prediksi model yang dilatih oleh komponen random forests.
Nilai area under curve (AUC) pada gambar di atas menunjukkan bahwa akurasi model yang dilatih untuk prediksi kualitas udara lebih dari 99%. Model ini dilatih oleh komponen random forests.Klik kanan komponen evaluate yang terhubung sebagai komponen downstream dari komponen logistic regression. Di menu pintasan yang muncul, klik Visual Analysis.
Di bagian evaluate, klik tab Evaluation Chart untuk melihat hasil prediksi model yang dilatih oleh komponen logistic regression.
Nilai AUC pada gambar di atas menunjukkan bahwa akurasi model untuk prediksi cuaca berkabut lebih dari 98%. Model ini dilatih oleh komponen logistic regression.