すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ローレンツ曲線

最終更新日:Jan 07, 2025

ローレンツ曲線は、データセット分布の不等式を示すために使用され、経済内の所得または富の分布を示すために一般的に使用されるグラフです。 これは、人口の累積パーセンテージによって受け取った資源の累積パーセンテージをプロットして、分布の不等式を直感的な方法で示します。 機械学習では、ローレンツ曲線を使用して、モデル予測の公平性またはリソース割り当てのバイアスを評価できます。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインの詳細ページで、Lorenz Curveコンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ

パラメーター

説明

フィールド設定

フィールドの選択

カーブのプロットに使用するフィーチャ列を選択します。

この列には、収入、富、スコアなどの分布の不平等を分析するために使用できるデータが含まれています。

パラメーター設定

数量

曲線をプロットするためにデータセットを分割する等確率区間の数。

適切な分位数を決定して、曲線の粒度を制御できます。 これは、データ分布における不等式のより詳細な分析を可能にする。

チューニング

コンピューティングコア

コンピューティングで使用されるコアの数。 値は正の整数である必要があります。

コアあたりのメモリサイズ (単位: MB)

各コアのメモリサイズ。

方法2: PAIコマンドを使用する

Platform for AI (PAI) コマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。

PAI -name LorenzCurve
    -project algo_public
    -DinputTableName=maple_test_lorenz_basic10_input
    -DcolName=col0
    -DoutputTableName=maple_test_lorenz_basic10_output -DcoreNum=20
    -DmemSizePerCore=110;

パラメーター

必須 / 任意

デフォルト値

説明

inputTableName

対象

デフォルト値なし

入力テーブルの名前。

outputTableName

対象

デフォルト値なし

出力テーブルの名前。

colName

非対象

デフォルト値なし

入力テーブルから選択された列。 複数の列を選択し、コンマ (,) で区切ることができます。

N

非対象

100

分位。

inputTablePartitions

非対象

デフォルト値なし

トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。

  • partition_name=value

  • name1=value1/name2=value2: マルチレベルパーティション

説明

複数のパーティションを指定する場合は、コンマ (,) で区切ります。 例: name1=value1,value2

ライフサイクル

非対象

28

出力テーブルのライフサイクル。 この値は整数でなければなりません。 単位:日

coreNum

非対象

システムによって決定される

このパラメーターはmemSizePerCoreで使用されます。 値は正の整数である必要があります。 システムは、入力データの量に基づいてインスタンスの数を計算します。

memSizePerCore

非対象

システムによって決定される

各コアのメモリサイズ。 単位:MB。 値は正の整数である必要があります。 推奨値: (1024,64 × 1024)

例:

  1. 次のテストデータを生成します。

    col0: ダブル

    4

    7

    2

    8

    6

    3

    9

    5

    0

    1

    10

  2. 次のPAIコマンドを実行します。

    PAI -name LorenzCurve
        -project algo_public
        -DinputTableName=maple_test_lorenz_basic10_input
        -DcolName=col0
        -DoutputTableName=maple_test_lorenz_basic10_output
        -DcoreNum=20
        -DmemSizePerCore=110;
  3. 次の表に示すように、出力を表示します。

    quantile

    col0

    0

    0

    1

    0.01818181818181818

    2

    0.01818181818181818

    3

    0.01818181818181818

    4

    0.01818181818181818

    5

    0.01818181818181818

    6

    0.01818181818181818

    7

    0.01818181818181818

    8

    0.01818181818181818

    9

    0.01818181818181818

    10

    0.01818181818181818

    11

    0.05454545454545454

    12

    0.05454545454545454

    13

    0.05454545454545454

    14

    0.05454545454545454

    ...

    ...

    85

    0.8181818181818182

    86

    0.8181818181818182

    87

    0.8181818181818182

    88

    0.8181818181818182

    89

    0.8181818181818182

    90

    1

    91

    1

    92

    1

    93

    1

    94

    1

    95

    1

    96

    1

    97

    1

    98

    1

    99

    1

    100

    1