ローレンツ曲線は、データセット分布の不等式を示すために使用され、経済内の所得または富の分布を示すために一般的に使用されるグラフです。 これは、人口の累積パーセンテージによって受け取った資源の累積パーセンテージをプロットして、分布の不等式を直感的な方法で示します。 機械学習では、ローレンツ曲線を使用して、モデル予測の公平性またはリソース割り当てのバイアスを評価できます。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインの詳細ページで、Lorenz Curveコンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールド設定 | フィールドの選択 | カーブのプロットに使用するフィーチャ列を選択します。 この列には、収入、富、スコアなどの分布の不平等を分析するために使用できるデータが含まれています。 |
パラメーター設定 | 数量 | 曲線をプロットするためにデータセットを分割する等確率区間の数。 適切な分位数を決定して、曲線の粒度を制御できます。 これは、データ分布における不等式のより詳細な分析を可能にする。 |
チューニング | コンピューティングコア | コンピューティングで使用されるコアの数。 値は正の整数である必要があります。 |
コアあたりのメモリサイズ (単位: MB) | 各コアのメモリサイズ。 |
方法2: PAIコマンドを使用する
Platform for AI (PAI) コマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。
PAI -name LorenzCurve
-project algo_public
-DinputTableName=maple_test_lorenz_basic10_input
-DcolName=col0
-DoutputTableName=maple_test_lorenz_basic10_output -DcoreNum=20
-DmemSizePerCore=110;パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
inputTableName | 対象 | デフォルト値なし | 入力テーブルの名前。 |
outputTableName | 対象 | デフォルト値なし | 出力テーブルの名前。 |
colName | 非対象 | デフォルト値なし | 入力テーブルから選択された列。 複数の列を選択し、コンマ (,) で区切ることができます。 |
N | 非対象 | 100 | 分位。 |
inputTablePartitions | 非対象 | デフォルト値なし | トレーニング用に入力テーブルから選択されたパーティション。 次の形式がサポートされています。
説明 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 例: name1=value1,value2 |
ライフサイクル | 非対象 | 28 | 出力テーブルのライフサイクル。 この値は整数でなければなりません。 単位:日 |
coreNum | 非対象 | システムによって決定される | このパラメーターはmemSizePerCoreで使用されます。 値は正の整数である必要があります。 システムは、入力データの量に基づいてインスタンスの数を計算します。 |
memSizePerCore | 非対象 | システムによって決定される | 各コアのメモリサイズ。 単位:MB。 値は正の整数である必要があります。 推奨値: (1024,64 × 1024) |
例:
次のテストデータを生成します。
col0: ダブル
4
7
2
8
6
3
9
5
0
1
10
次のPAIコマンドを実行します。
PAI -name LorenzCurve -project algo_public -DinputTableName=maple_test_lorenz_basic10_input -DcolName=col0 -DoutputTableName=maple_test_lorenz_basic10_output -DcoreNum=20 -DmemSizePerCore=110;次の表に示すように、出力を表示します。
quantile
col0
0
0
1
0.01818181818181818
2
0.01818181818181818
3
0.01818181818181818
4
0.01818181818181818
5
0.01818181818181818
6
0.01818181818181818
7
0.01818181818181818
8
0.01818181818181818
9
0.01818181818181818
10
0.01818181818181818
11
0.05454545454545454
12
0.05454545454545454
13
0.05454545454545454
14
0.05454545454545454
...
...
85
0.8181818181818182
86
0.8181818181818182
87
0.8181818181818182
88
0.8181818181818182
89
0.8181818181818182
90
1
91
1
92
1
93
1
94
1
95
1
96
1
97
1
98
1
99
1
100
1