Prediksi kualitas udara Beijing dengan PAI Designer & Random Forest - Platform for AI - Alibaba Cloud - Platform For AI

Buat model untuk memprediksi kualitas udara dengan menganalisis data nyata selama satu tahun dari Beijing dan identifikasi polutan yang paling berdampak terhadap kadar PM 2.5.

Set data

Eksperimen ini menggunakan data kualitas udara per jam dari Beijing tahun 2016. Tabel berikut menjelaskan bidang-bidang dalam set data tersebut.

Field name	Type	Description
time	STRING	Tanggal pengumpulan data.
hour	STRING	Jam saat data dikumpulkan.
pm2	STRING	Indeks PM 2.5.
pm10	STRING	Indeks PM 10.
so2	STRING	Indeks sulfur dioksida (SO2).
co	STRING	Indeks karbon monoksida (CO).
no2	STRING	Indeks nitrogen dioksida (NO2).

Memprediksi kualitas udara

Buka halaman Machine Learning Designer.
1. Masuk ke PAI console.
2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.
3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

Buat pipeline.

Di halaman Designer, klik tab Preset Templates.
Di bagian Air Quality Prediction, klik Create.
Di kotak dialog Create Pipeline, konfigurasikan parameter. Anda dapat menggunakan pengaturan default untuk semua parameter.

Parameter Data Storage menentukan path OSS Bucket untuk menyimpan data sementara dan model yang dihasilkan selama eksekusi pipeline.
Klik Confirm.

Pembuatan pipeline memerlukan waktu sekitar 10 detik.
Di daftar pipeline, klik ganda pipeline Air Quality Prediction untuk membukanya.

Sistem secara otomatis membangun pipeline dari template preset.

雾霾预测实验

Region	Description
①	Impor dan preprocessing data: Komponen Read Data Table mengimpor set data. Komponen Type Transform mengonversi data dari STRING ke DOUBLE. Komponen SQL Script mengonversi kolom label menjadi tipe biner 0 atau 1. Dalam eksperimen ini, kolom pm2 merupakan kolom label. Nilai yang lebih besar dari 200, yang menunjukkan polusi udara berat, diberi label 1. Nilai lainnya diberi label 0. Pernyataan SQL berikut digunakan: `select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};` Komponen Normalization menstandarkan data indikator polutan untuk menghilangkan dimensi.
②	Analisis statistik: Komponen Histogram memvisualisasikan distribusi setiap polutan. Sebagai contoh, untuk PM2.5, rentang nilai yang paling sering muncul adalah 11,74 hingga 15,61, yang terjadi sebanyak 430 kali, seperti ditunjukkan pada gambar berikut. Komponen Data View memvisualisasikan bagaimana rentang nilai setiap polutan memengaruhi hasil akhir. Sebagai contoh, untuk fitur no2, rentang 112,33 hingga 113,9 berisi 7 instans label target 0 dan 9 instans label target 1, seperti ditunjukkan pada gambar berikut. Hal ini menunjukkan probabilitas lebih tinggi terjadinya polusi udara berat ketika nilai no2 berada dalam rentang tersebut. Entropi dan Gini mengukur information gain, atau dampak, dari rentang fitur ini terhadap nilai target. Nilai yang lebih besar menunjukkan dampak yang lebih besar.
③	Pelatihan dan prediksi model: Komponen Random Forest dan Binary Logistic Regression melatih model.
④	Evaluasi model.

Jalankan pipeline dan lihat hasil model.
1. Klik ikon Run di bagian atas kanvas.
2. Setelah pipeline selesai, klik kanan komponen Binary Classification Evaluation yang berada di downstream komponen Random Forest pada kanvas, lalu pilih Visual Analysis dari menu pintasan.
3. Di kotak dialog Binary Classification Evaluation, klik tab Evaluation Charts untuk melihat hasil prediksi model Random Forest.
  
  Area Under the Curve (AUC) lebih dari 99%, menunjukkan akurasi prediksi yang tinggi untuk model Random Forest.
4. Klik kanan komponen Binary Classification Evaluation yang berada di downstream komponen Binary Logistic Regression pada kanvas, lalu pilih Visual Analysis dari menu pintasan.
5. Di kotak dialog Binary Classification Evaluation, klik tab Evaluation Charts untuk melihat hasil prediksi model Binary Logistic Regression.
  
  Nilai AUC lebih dari 98%, menunjukkan akurasi prediksi yang tinggi untuk model Binary Logistic Regression.