人口安定性指標 (PSI) とは、2つのサンプル分布間の差異を評価するための統計的メトリックです。モデルパフォーマンスの安定性を、時間経過や環境間の差異という観点からモニタリングするためによく使用されます。PSI は 2 つのサンプル間の分布差を計算することで、データシフトやデータドリフトといった潜在的な変化を特定し、モデルのメンテナンスや更新の判断材料を提供します。
アルゴリズムの説明
PSI はサンプルの安定性を測定する指標です。たとえば、サンプルの分布が 2 か月間で大幅に変化したかどうかを判断するために使用します。PSI 値が 0.1 未満の場合、変化は軽微であると判断されます。PSI 値が 0.1 から 0.25 の間の場合、顕著な変化があると判断されます。PSI 値が 0.25 を超える場合、特別な注意を要する大きな変化があると判断されます。
チャートを作成することで、異なる時点におけるサンプルの安定性を測定できます。そのためには、変数を N 個のビンに離散化します。次に、各ビン内のサンプルの数と割合を計算し、次の図に示すように、結果を縦棒グラフで表示します。
この方法では、2 つのサンプルセット間での変数の大きな変化を視覚的に確認できますが、定量的な測定はできません。つまり、サンプルの安定性を自動でモニタリングするためには使用できません。このため、PSI が重要となります。PSI の計算式を以下に示します。
コンポーネントの設定
方法1:GUI の使用
Designer のワークフローページで、[Population Stability Index (PSI)] コンポーネントを追加します。次に、ページの右側でそのパラメーターを設定します。
パラメータータイプ | パラメーター | 説明 |
フィールド設定 | PSI 計算用の特徴量 | PSI を計算する特徴量列。 |
実行チューニング | コア数 | 使用する CPU コアの数。デフォルトでは、システムが自動的にコアを割り当てます。 |
メモリサイズ | 各 CPU コアのメモリサイズ。デフォルトでは、システムが自動的にメモリを割り当てます。 |
方法2:PAI コマンドの使用
PAI コマンドを使用して、[Population Stability Index (PSI)] コンポーネントのパラメーターを設定します。SQL スクリプトコンポーネントを使用して PAI コマンドを実行します。詳細については、「SQL スクリプト」をご参照ください。
PAI -name psi
-project algo_public
-DinputBaseTableName=psi_base_table
-DinputTestTableName=psi_test_table
-DoutputTableName=psi_bin_table
-DinputBinTableName=pai_index_table
-DfeatureColNames=fea1,fea2,fea3
-Dlifecycle=7パラメーター | 必須 | デフォルト値 | 説明 |
inputBaseTableName | はい | なし | ベーステーブルの名前。テストテーブルのオフセットは、このベーステーブルに基づいて計算されます。 |
inputBaseTablePartitions | いいえ | テーブル全体 | 入力ベーステーブルのパーティション。 |
inputTestTableName | はい | なし | テストテーブルの名前。テストテーブルのオフセットは、ベーステーブルに基づいて計算されます。 |
inputTestTablePartitions | いいえ | テーブル全体 | 入力テストテーブルのパーティション。 |
inputBinTableName | はい | なし | ビニング結果テーブルの名前。 |
featureColNames | いいえ | テーブル全体 | PSI を計算する特徴量列。 |
outputTableName | はい | なし | 出力メトリックテーブルの名前。 |
lifecycle | いいえ | なし | 出力テーブルのライフサイクル。 |
coreNum | いいえ | システムによる自動割り当て | 使用する CPU コアの数。 |
memSizePerCore | いいえ | システムによる自動割り当て | 各 CPU コアのメモリサイズ (単位:MB)。 |
例
PSI を計算する前に、特徴量データをビニングする必要があります。これにはビニングコンポーネントが必要です。次の図に示す例では、PSI コンポーネントは 2 つのサンプルデータセットとビニングコンポーネントに接続されています。計算を実行するには、[PSI 計算用の特徴量] パラメーターを設定するだけです。

次の図は、PSI の計算結果を示しています。