PAI Designer とランダムフォレストによる北京の空気質予測 - PAI

1 年分の北京の気象データを使用してヘイズ予測モデルを構築し、PM 2.5 レベルに最も大きな影響を与える汚染物質を特定します。

データセット

この実験では、2016 年の北京の 1 時間ごとの大気質データを使用します。フィールドの説明を次の表に示します。

フィールド名	型	説明
time	STRING	日付、日にちまで正確。
hour	STRING	データ収集の時間。
pm2	STRING	PM 2.5 インデックス。
pm10	STRING	PM 10 インデックス。
so2	STRING	二酸化硫黄インデックス。
co	STRING	一酸化炭素インデックス。
no2	STRING	二酸化窒素インデックス。

ヘイズ予測

Machine Learning Designer ページに移動します。
1. PAI コンソールにログインします。
2. 左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。ワークスペースページで、管理するワークスペースの名前をクリックします。
3. 左側のナビゲーションウィンドウで、[モデル学習] > [可視化モデリング (Designer)] を選択します。

ワークフローを構築します。

「[Designer]」ページで、[プリセットテンプレート] タブをクリックします。
テンプレートリストの [ヘイズ予測] セクションで、[作成] をクリックします。
[New Workflow] ダイアログボックスで、パラメーターを設定します。デフォルト値を使用できます。
[ワークフローデータストレージ] は、ワークフローが実行中に生成される一時データおよびモデルを格納するための OSS バケットパスに設定されています。
[OK] をクリックします。
ワークフローは約 10 秒で作成されます。
ワークフローリストで、[Haze Prediction] ワークフローをダブルクリックします。

次の図に示すように、ワークフローはプリセットテンプレートに基づいて自動的に構築されます。

雾霾预测实验

エリア	説明
①	データのインポートと前処理： [Read Table] コンポーネントは、データソースをインポートします。 [Type Transform] コンポーネントは、STRING 型のデータを DOUBLE 型に変換します。 SQL スクリプトコンポーネントは、ターゲット列をバイナリ型（0 および 1）に変換します。この実験では、pm2 列がターゲットです。200より大きい値は重度のもやを示し、値 1 が割り当てられます。それ以外では 0 が割り当てられます。SQL ステートメント： `select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};` [正規化] コンポーネントは、さまざまな汚染物質指標の単位を統一し、ディメンションの違いを除去します。
②	統計分析： [ヒストグラム] コンポーネントは、各汚染物質の分布を可視化します。 PM2.5 の場合、最も頻繁に出現する値の範囲は 11.74 から 15.61 で、発生数は 430 回です。次の図に示します。 [Data View] コンポーネントは、異なる汚染物質の間隔が結果に与える影響を可視化します。 [no2] の場合、112.33～113.9 の間隔では、次の図に示すように、値が 0 のターゲットが 7 個、値が 1 のターゲットが 9 個生成されました。[no2] の値が 112.33～113.9 の範囲内にある場合、重度の煙霧が発生する確率が高くなります。エントロピーとジニは、この特徴量の間隔がターゲット値に与える影響を、情報理論の観点から定量化します。値が大きいほど、影響が大きいことを示します。
③	モデルの学習と予測。この実験では、[ランダムフォレスト] および [バイナリロジスティック回帰] コンポーネントを使用してモデルを学習します。
④	モデルの評価。

ワークフローを実行し、モデルのパフォーマンスを表示します。
1. キャンバスの上にある実行ボタンをクリックします。
2. ワークフローが完了したら、キャンバス上の[ランダムフォレスト]コンポーネントの下流にある[二値分類評価]コンポーネントを右クリックします。ショートカットメニューから[ビジュアル分析]を選択します。
3. [評価チャート] タブを [2値分類評価] ダイアログボックスでクリックして、[ランダムフォレスト] コンポーネントで学習されたモデルの予測性能を表示できます。
  
  曲線下面積 (AUC) の値は、[Random Forest] コンポーネントでトレーニングされたヘイズ予測モデルの精度が 99% を超えていることを示しています。
4. キャンバスで、[二項ロジスティック回帰] コンポーネントの下流にある [二項分類評価] コンポーネントを右クリックします。ショートカットメニューから [ビジュアル分析] を選択します。
5. ［二項分類評価］ダイアログボックスで、［評価チャート］タブをクリックして、［二項ロジスティック回帰］コンポーネントによってトレーニングされたモデルの予測性能を表示します。
  
  AUC値は、[ロジスティック回帰] コンポーネントで学習された霧状の天気予測モデルの精度が98%を超えていることを示します。