PAI の金融コンポーネントとクレジットカードの取引データを使用して、信用リスク評価のためのスコアカードモデルを構築します。
背景情報
スコアカードは、信用リスク評価やインターネット金融において一般的なモデリング手法です。これは特定の機械学習アルゴリズムではなく、ビン分割された生データに特徴量エンジニアリング変換を適用し、線形モデルを使用してモデリングを行う汎用的なモデリングフレームワークです。
スコアカードモデリングは、通常、クレジットカードのリスク評価やローン発行サービスなどの信用評価に使用されます。他の分野では、スコアカードモデリングは顧客サービスの品質や芝麻信用のスコア評価にも使用できます。
前提条件
ワークスペースが作成されていること。詳細については、「ワークスペースの作成と管理」をご参照ください。
MaxCompute リソースがワークスペースに関連付けられていること。詳細については、「ワークスペースの作成と管理」をご参照ください。
データセット
このワークフローでは、外部機関のオープンソースデータセット (データセットのダウンロード) を使用します。このデータセットには 30,000 件のレコードが含まれています。データセットには、ユーザーの性別、学歴、配偶者の有無、年齢、クレジットカードの取引履歴、クレジットカードの請求明細が含まれます。
payment_next_month 列は、ユーザーがクレジットカードの請求を返済するかどうかを示すターゲット列です。
1 は請求が返済されたことを示します。
0 は請求が返済されなかったことを示します。
スコアカードによる信用スコアリング
-
Machine Learning Designer のページに移動します。
-
PAI コンソールにログインします。
-
左側のナビゲーションウィンドウで、[Workspaces] をクリックします。[Workspaces] ページで、管理するワークスペースの名前をクリックします。
-
左側のナビゲーションウィンドウで、 を選択します。
-
ワークフローを構築します。
Designer ページで、[プリセットテンプレート] タブをクリックします。
[プリセットテンプレート] ページで、[スコアカードに基づくクレジットカード消費分析] の下にある [作成] をクリックします。
[新しいワークフロー] ダイアログボックスで、パラメーターを設定します。デフォルト値を使用できます。
[ワークフローデータストレージ] は、ワークフローの実行時に生成される一時データとモデルを格納するための OSS バケットパスに設定されます。
[OK] をクリックします。
ワークフローは約 10 秒で作成されます。
ワークフローリストで [スコアカードに基づくクレジットカード消費分析] をダブルクリックして開きます。
プリセットテンプレートに基づいて、次の図に示すようにワークフローが自動的に構築されます。

エリア
説明
①
入力データセットをトレーニングデータセットとテストデータセットに分割します。
②
[Binning] コンポーネントは One-Hot エンコーディングに似ており、データ分布に基づいてデータを高次元の特徴にマッピングします。たとえば、age フィールドに対して、[Binning] コンポーネントは異なる間隔のデータ分布に基づいてビニング操作を実行します。ワークフローの実行後、[Binning-1] コンポーネントを右クリックし、[ビニング] を選択します。[Binning-1] 設定ペインで、名前 (age) をクリックして詳細を表示します。結果は次の図のようになります。
ワークフローの実行後、[Binning-1] コンポーネントを右クリックし、ショートカットメニューから を選択します。各フィールドは、次の図に示すように複数の間隔にビニングされます。
③
分割前後およびビニング後のサンプル安定性を総合的に比較し、各特徴の人口安定性指標 (PSI) の値を返します。ワークフローの実行後、[Population Stability Index (PSI)-1] コンポーネントを右クリックし、 を選択して結果を表示します。結果は次の図のようになります。

人口安定性指標 (PSI) は、時間の経過に伴うサンプル分布のシフトを測定し、サンプルの安定性を示す重要なメトリックです。特徴の合計 PSI 値は、その特徴の各行の PSI 値の合計です。通常、PSI 値が 0.1 未満の場合は、サンプルの変化が重要でないことを示します。PSI 値が 0.1 から 0.25 の間の場合、サンプルの変化が重要であることを示します。PSI 値が 0.25 を超える場合は、サンプルの変化が激しく、特別な注意が必要であることを示します。
④
スコアカードトレーニング。ワークフローの実行後、[Scorecard Training-1] コンポーネントを右クリックし、 を選択してトレーニング結果を表示します。結果は次の図のようになります。
スコアカードの本質は、ビジネス基準を満たすスコアを使用して、複雑なモデルの重みを表現することです。結果の主要なパラメーターは次のとおりです:weight:元の重み値。
Scaled_weight:スコア変動指標。たとえば、pay_0 特徴の場合、特徴値が (-1,0] の間隔にある場合、スコアは 29 減少し、特徴値が (0,1] の間隔にある場合、スコアは 27 増加します。
contribution:各特徴が結果に与える影響。値が大きいほど、影響が大きいことを示します。
⑤
各ユーザーの信用スコアを予測し、モデルのパフォーマンスを評価します。
ワークフローを実行し、出力結果を表示します。
キャンバスの上部にある実行ボタン
をクリックします。ワークフローの実行が完了したら、キャンバス上の [Scorecard Prediction-1] コンポーネントを右クリックし、ショートカットメニューから を選択して、各ユーザーの信用スコアを表示します。

参照
アルゴリズムコンポーネントの詳細については、以下をご参照ください: